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内 容 拓 要 


如 今 ， 人 们 面临 的 大 多 数 任务 部 可 以 通过 编写 计算 机 软件 来 完成 。 
Python 是 一 种 解释 型 、 面 癌 对 象 、 动 态 数据 类 型 的 高 级 程序 设计 语言 。 
通过 Python 编程 ， 我 们 能 够 解决 现实 生活 中 的 很 多 任务 。 





本 书 是 一 本 面 癌 实践 的 Python 编程 实用 指南 。 本 书 的 目的 ， 不 仅 是 
介绍 Python 语言 的 基础 知识 ， 而 且 还 通过 项 目 实践 教会 读者 如 何 应 用 这 
些 知 识 和 技能 。 本 书 的 第 一 部 分 介绍 了 基本 的 Python 编程 概念 ， 第 二 部 
分 介绍 了 一 些 不 同 的 任务 ， 通 过 编写 Python 程序 ， 可 以 让 计算 机 目 动 完 
成 它们 。 第 二 部 分 的 每 一 章 都 有 一 些 项 目 程序 ， 供 读者 学 习 。 每 章 的 末 
尾 还 提供 了 一 些 习题 和 深入 的 实践 项 目 ， 帮 助 读者 巩固 所 学 的 知识 。 附 
录 部 分 提供 了 所 有 习题 的 解答 。 





本 书 适 合 任何 想 要 通过 Python 学 习 编程 的 读者 ， 尤 其 适合 缺乏 编程 
基础 的 初学 者 。 通 过 阅读 本 书 ， 读 者 将 能 利用 最 强大 的 编程 语言 和 工 
具 ， 并 且 将 体会 到 Python 编程 的 快乐 。 
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EENT 会 编程 的 人 不 一 样 


这 是 机 器 代 蔡 人 的 时 代 ， 也 是 人 控制 机 器 的 时 代 。 这 是 程序 员 的 时 
代 ， 也 是 非 程序 员 学 编程 的 时 代 。 这 是 算法 的 时 代 ， 也 是 编程 语言 的 时 
> 
石 九 段 。 


每 一 个 不 会 编程 的 年 轻 人 都 应 该 认真 考虑 ， 是 不 是 应 该 开始 学 习 纺 
程 ? 














学 习 一 门 新 的 语言 ， 总 是 让 人 感到 长 缩 。 这 让 我 想起 大 学 时 英语 老 
师 教 的 学 习 方 法 : 听 说 领先 ， 读 写 跟 上 。 确 实 ， 学 语言 效果 最 好 的 方法 
就 是 “用”"。 本 书 就 遵循 了 这 样 的 宗旨。 本 书 是 面 对 编程 初学 者 的 书 ， 假 
定 读者 没有 任何 编程 知识 。 在 简单 介绍 Python 编程 语言 的 基本 知识 后 ， 
就 开始 用 一 个 接 一 个 的 例子 ， 教 我 们 如 何 用 Python 来 完成 一 些 日 常 工 
作 ， 利 用 计算 机 这 个 强大 的 工具 ， 节 省 工作 时 间 ， 提 高 工作 效率 ， 避 免 
手工 操作 容易 带 来 的 错误 。 


真正 的 程序 员 ， 用 编程 来 解决 自己 和 别人 的 问题 。 俄 罗斯 有 一 个 程 
序 员 编 写 了 一 个 程序 ， 会 给 老 交 发 加 班 短信 ， 会 在 宿 酬 不 醒 时 给 目 己 请 
假 ， 会 自动 根据 邮件 恢复 客户 的 数据 库 ， 还 可 以 一 键 远 程 者 咖啡。 加 拿 
大 一 名 零 编 程 基础 的 农场 主 ， 在 学 习 了 一 门 编程 读 后 ， 开 发 了 一 个 程 
序 ， 目 动 控制 拖拉 机 ， 配 合 联合 收割 机 收割 谷物 。 


知 是 已 经 掌握 了 其 他 编程 语言 ， 想 学 习 Python， 本 书 也 是 不 错 的 参 

。 每 一 种 编程 语言 ， 都 会 提供 一 种 独特 的 视角 ， 让 你 对 编程 有 新 的 认 
识 。 我 非常 喜欢 Python 没有 花 括 号 和 分 号 ， 程 序 很 “清爽 ”， 符 合 奥 卡 姆 
Bl JRE: WEAR, WEKE. ARARA RANA H H X RA K 
式 编 程 范式 ， 如 果 想 了 解 Python 这 方面 的 内 容 ， 请 参考 其 他 书籍 。 


在 本 书 的 翻译 过 程 ， 我 目 己 也 在 项 目 中 使 用 Python 编程 ， 从 中 得 到 
许多 局 发 。 因 此 ， 郑 重 向 大 家 推荐 。 翻 译 中 的 错误 ， 请 不 音 指出 。 
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“你 在 2 个 小 时 里 完成 的 事 ， 我 们 3 个 人 要 做 两 天 。”21 世 纪 早 期 ， 我 
的 大 学 室友 在 一 个 电子 产品 零售 商店 工作 。 商 店 偶尔 会 收 到 一 份 电子 表 
格 ， 其 中 包含 竞争 对 手 的 数 生 种 产品 的 价格 。 由 3 个 员工 组 成 的 团队 ， 
会 将 这 个 电子 表格 打印 在 一 车 厚 厚 的 纸 上 ， 然 后 3 个 人 分 一 下 。 针 对 每 
个 产品 价格 ， 他 们 会 但 看 自己 商店 的 价格 ， 并 记录 苋 争 对 手 价 格 较 低 的 
所 有 产品 。 这 通 第 会 花 几 天 的 时 间 。 


“如 果 你 有 打印 件 的 原始 文件 ， 我 会 写 一 个 程序 来 做 这 件 事 。? 我 的 
和 
张 。 





几 个 小 时 后 ， 他 写 了 一 个 简短 的 程序 ， 从 文件 读 取 苋 争 对 手 的 价 
格 ， 在 商店 的 数据 库 中 找到 该 产品 ， 并 记录 竞争 对 手 是 否 更 便宜 。 他 当 
时 还 是 纺 程 新 手 ， 花 了 许多 时 间 在 一 本 编程 书籍 中 答 看 文档 。 实 际 上 程 
序 只 论 了 儿 秒 钟 运行 。 我 的 室友 和 他 的 同事 们 那天 享受 了 超 长 的 午餐 。 


这 就 是 计算 机 编程 的 威力 。 计 算 机 就 像 瑞 士 苗 刀 ， 可 以 用 来 完成 数 
不 清 的 任务 。 许 多 人 人 花 上 数 小 时 点 击 鼠 标 和 疝 打 键盘 ， 执 行 重复 的 任 
务 ， 却 没有 意识 到 ， 如 果 他 们 给 机 旨 正 确 的 指令 ， 机 器 就 能 在 几 秒 钟 内 
完成 他 们 的 工作 。 











本 书 的 读者 对 象 


软件 是 我 们 今天 使 用 的 许多 工具 的 核心 : 几乎 每 个 人 都 使 用 社交 网 
络 来 进行 交流 ， 许 多 人 的 手机 中 都 有 连接 因特网 的 计算 机 ， 大 多 数 办 公 
室 工 作 都 涉及 操作 计算 机 来 完成 工作 。 因 此 ， 对 编程 人 才 的 需求 暴涨 。 
无 数 的 图 书 、 交 互 式 网 络 教程 和 开发 者 新 兵 训练 营 ， 承 施 将 有 雄心 壮志 
的 初学 者 变 成 软件 工程 师 ， 获 得 6 位 数 的 薪水 。 


本 书 不 是 针对 这 些 人 的 。 它 是 针对 所 有 其 他 的 人 。 


就 它 本 刁 来 说 ， 这 本 书 不 会 让 你 变 成 一 个 职业 软件 开发 者 ， 就 像 几 
节 吉 他 课程 不 会 让 你 变 成 一 名 摇滚 巨星 。 但 如 果 你 是 办 公 室 职员 、 管 理 
者 、 学 术 研 究 者 ， 或 使 用 计算 机 来 工作 或 娱乐 的 任何 人 ， 你 将 学 到 编程 
的 基本 知识 ， 这 样 束 能 将 下 面 这 样 一 些 简单 的 任务 自动 化 : 


。 移动 并 重 命 名 几 干 个 文件 ， 将 它们 分 类 ， 放 入 文件 夹 ; 
。 填写 在 线 表 单 ， 不 需要 打字 ; 

。 在 网 站 更 新 时 ， 从 网 站 下 载 文件 或 复制 文本 ; 

e 让 计算 机 辐 客 户 发 出 短信 通知 ; 

。 更 新 或 格式 化 Excel 电 子 表 格 ; 

。 检查 电子 邮件 并 发 出 预先 写 好 的 回复 。 


对 人 来 说 ， 这 些 任 务 简单 ， 但 很 花 时 间 。 捷 们 通 冲 很 琐碎 、 很 特 
殊 ， 没 有 现成 的 软件 可 以 完成 。 有 一 点 编程 知识 ， 就 可 以 让 计算 机 为 你 
完成 这 些 任务 。 


aS LI 


本 书 没有 设计 成 参考 手册 ， 它 是 初学 者 指南 。 编 码 风 格 有 时 候 违 反 
最 佳 实践 〈 例 如， 有些 程序 使 用 全 局 变量 ) ， 但 这 是 一 种 折 中 ， 让 代码 
更 简单 ， 以 便 学 习 。 本 书 的 目的 是 让 人 们 编写 用 完 即 抛弃 的 代码 ， 所 以 
没有 太 多 时 间 来 关注 风 格 和 优雅 。 复 杂 的 编程 概念 《如 面 问 对 象 编程 、 
列表 推导 和 生成 器 ) ， 在 本 书 中 也 没有 介绍 ， 因 为 它们 增加 了 复 灯 性 。 
编程 老手 可 能 会 指出 ， 本 书 中 的 代码 可 以 修改 得 更 有 效率 ， 但 本 书 主 要 
考虑 的 是 用 最 少 的 工作 量 得 到 能 工作 的 程序 。 


























什么 是 编程 

在 电视 剧 和 电影 中 ， 篆 第 看 到 程序 员 在 闪光 的 屏幕 上 迅速 地 输入 密 
码 般 的 一 串 1 和 0， peed clad elie 编程 只 是 输入 指令 让 计算 
机 采 执 行 。 这 些 指令 可 能 运算 一 些 数字 ， 修 改 文 本 ， 在 文件 中 查找 信 
E WOM 过 因特网 号 其 他 计算 机 通 EA o 


所 有 程序 都 使 用 基本 指令 作为 构件 块 。 下 面 是 一 些 第 用 的 指令 ， 用 
目 然 语 言 的 形式 来 表示 : 


“做 这 个 ， 然 后 做 那个 。” 

“如 果 这 个 条 件 为 真 ， 执 行 这 个 动作 ， 人 否则 ， 执 行 那 个 动作 。” 

“按照 指定 次 数 执行 这 个 动作 。” 

“一 直 做 这 个 ， 直 到 条 件 为 真 。 

也 可 以 组 合 这 些 构 件 块 ， 实 现 更 复杂 的 决定 。 例 如 ， 这 里 有 一 些 编 
程 指令 ， 称 为 源 代 码 ， 是 用 Python 编程 语言 编写 的 一 个 简单 程序 。 从 头 


开始 ，Python 软 件 执行 每 行 代码 《有 些 代 码 只 有 在 特定 条 件 为 真 时 执 
行 ， 人 否则 Python 会 执行 妨 外 一 些 代 码 ) ， 直 到 到 达 确 部 。 





@ passwordFile = open('SecretPasswordFile.txt' ) 
@ secretPassword = passwordFile.read() 
© print('Enter your password. ') 
typedPassword = input() 
@ if typedPassword == secretPassword: 
print('Access granted’ ) 
if typedPassword == '12345': 


print('That password is one that an idiot puts on their luggage. ' 


else: 
@ print('Access denied') 





你 可 能 对 编程 一 无 所 知 ， 但 读 了 上 面 的 代码 ， 也 许 就 能 够 合理 地 猪 
测 它 做 的 事 。 首 先 ， 打 开 了 文件 SecretPasswordFile.txt@， 读 取 了 其 中 的 


ZO. An. anA ORNER) 输入 一 个 密码 人 @。 比 较 这 两 个 密 
码 @@， 如 果 它 们 一 样 ， 程 序 就 在 屏幕 上 打印 Access granted 合 。 接 下 来 ， 
程序 检查 密码 是 否 为 12345@， 提 示 说 这 可 能 并 不 是 最 好 的 密码 @。 如 
果 密 码 不 一 样 ， 程 序 就 在 屏幕 上 打印 Access denied®. 





什么 是 Python 


Python 指 的 是 Python 编程 语言 《包括 语法 规则 ， 用 于 编写 被 认为 是 
有 效 的 Python 代码 ) ， 以 及 Python 解 释 右 软件 ， 它 读 取 源 代码 (用 
python 语 言 编 写 ) ， 并 执行 其 中 的 指令 。Python 解 释 器 可 以 从 
http://python.org/ 人 免费 下 载 ， 有 和 针对 Linux、OS X 和 Windows 的 版 本 。 


Python 的 名 字 来 自 于 英国 超 现 实 主 义 喜 剧团 体 ， 而 不 是 来 自 于 蛇 。 
Python 程序 员 被 亲切 地 称 为 Pythonistas。Monty Python 和 与 蛇 相 关 的 引用 
常常 出 现在 Python 的 指南 和 文档 中 。 


程序 员 不 需要 知道 太 多 数学 


我 昕 到 的 天 于 学 习 编 程 的 最 常见 的 顾虑 ， 就 是 人 们 认为 这 需要 很 多 
数学 知识 。 其 实 ， 大 多 数 编程 需要 的 数学 知识 不 超过 基本 算数 。 实 际 
上 ， 善 于 编程 与 善于 解决 数 独 问题 没有 太 大 差别 。 


要 解决 数 独 问题 ， 数 字 1 到 9 必须 填 入 9x9 的 棋盘 上 每 一 行 、 每 一 
列 ， 以 及 每 个 3x3 的 内 部 方块 。 通 过 推导 和 起 始 数字 的 逻辑 ， 你 会 找到 
一 个 答案 。 例 如 ， 在 图 1 的 数 独 问 题 中 ， 既 然 5 出 现在 了 左上 角 ， 它 就 
不 能 出 现在 顶 行 、 最 左 列 ， 或 左上 和 角 3x3 方 块 中 的 其 他 位 置 。 每 次 解决 
一 行 、 一 列 或 一 个 方块 ， 将 为 剩 下 的 部 分 提供 更 多 的 数字 线索 。 


仅仅 因为 数 独 使 用 了 数字 ， 并 不 意味 看 必须 精通 数学 才能 求 出 答 
和 案 。 纺 程 也 是 这 样 。 就 像 解 决 数 独 问 题 一样 ， 编 程 需要 将 一 个 问题 分 解 
为 单个 的 、 详 细 的 步骤 。 类 似 地 ， 在 调试 程序 时 《〈 即 寻找 和 修复 错 
误 ) ， 你 会 耐心 地 观察 程序 在 做 什么 ， 找 出 缺陷 的 原因 。 像 所 有 技能 一 
样 ， 编 程 越 多 ， 你 就 掌握 得 越 好 。 
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图 1 一 个 新 的 数 独 问题 〈 左 边 ) 及 其 答案 。 尽 管 使 用 了 数字 ， 数 独 并 不 需要 太 多 数学 
ME 






































编程 是 创造 性 活动 


编程 是 一 项 创造 性 任务 ， 有 点 类 似 于 用 乐高 积木 构建 一 个 城堡 。 你 
从 基本 的 想法 开始 ， 希 望城 堡 看 起 来 像 怎样 ， 并 盘点 可 用 的 积木 。 然 后 
oe 在 你 完成 构建 程序 后 ， 可 以 让 代码 变 得 更 美观 ， 惑 像 对 你 的 


编程 与 其 他 创造 性 活动 的 不 同 之 处 在 于 ， 在 编程 时 ， 你 需要 的 所 有 
原材料 都 在 计算 机 中 ， 你 不 需要 购买 籁 外 的 画布 、 闫 料 、 股 片 、 纱 线 、 


乐高 积木 或 电子 器 件 。 在 程序 写 好 后 ， 很 容易 将 它 在 线 共享 给 整个 世 
界 。 尽 管 在 编程 时 你 会 犯错 ， 这 项 活动 仍然 很 有 乐趣 。 


本 书简 介 

本 书 的 第 一 部 分 介绍 了 基本 Python 编程 概念 ， 第 二 部 分 介绍 了 一 些 
不 同 的 任务 ， 你 可 以 让 计算 机 自动 完成 它们 。 第 二 部 分 一 音 部 有 一 
些 项 目 程 序 ， 供 你 学 习 。 下 面 简单 介绍 一 下 每 章 的 内 容 
第 一 部 分 : Python 编程 基础 


“第 1 章 : Python 基础 ”介绍 了 表达 式 、Python 指 令 的 最 基本 类 型 ， 
以 及 如 何 使 用 python 交 互 式 环境 来 党 试 运 行 代码 。 


第 2 章 : 控制 流 ” 解 释 了 如 何 让 程序 决定 执行 哪些 指令 ， 以 便 代码 
ieee 能 地 啊 应 不 同 的 情况 。 


“第 3 章 : 函数 ”介绍 了 如 何 定义 目 己 的 函数 ， 以 便 将 代码 组 织 成 可 
管理 的 部 分 。 


“第 4 章 : 列表 ”介绍 了 列表 数据 类 型 ， 解 释 了 如 何 组 织 数据 。 


“第 5 章 : 字典 和 结构 化 数据 ”介绍 了 字典 数据 类 型 ， 展 示 了 更 强大 
的 数据 组 织 方法 。 


sy “He SERENAT ALACRA AEko AE 
) 。 


第 二 部 分 : 自动 化 任务 
“第 7 章 : 模式 匹配 与 正则 表达 式 ” 介 绍 了 Python 如 何 用 正则 表达 式 














处 理 字符 串 ， 以 及 但 找 文 本 模式 。 
“第 8 章 : 读 写 文件 "解释 了 程序 如 何 读 取 文 本 文件 的 内 容 ， 并 将 信 
奶 保 存 到 人 硬盘 的 文件 中 。 


“第 9 章 : 组 织 文 件 ? 展 示 了 Python 如 何 用 比 手 工 操作 快 得 多 的 速 
复制 、 移 动 、 重 命名 和 删除 大 量 的 文件 ， 也 解释 了 压缩 和 解压 缩 文 





“第 10 章 : 调试 ?展示 了 如 何 使 用 Python 的 缺陷 查找 和 缺陷 修复 工 





“第 11 章 : 从 Web 抓 取信 息 ” 展 示 了 如 何 编程 来 自动 下 载 网 页 ， 解 
析 它 们 ， 获 取信 息 。 这 称 为 从 Web 抓 取信 息 。 


“第 12 章 : 处 理 Excel 电 子 表格 ”介绍 了 编程 处 理 Excel 电 子 表 格 ， 这 
T RENE 如 果 你 必须 分 析 成 百 上 千 的 文档 ， 这 是 很 有 帮 
助 的 。 





“第 13 章 : 处 理 PDF 和 Word 文 档 ” 介 绍 了 编程 读 取 Word 和 和 PDF 文档 。 


“第 14 章 : 处 理 CSV 文 件 和 JSON 数 据 ? 解 释 了 如 何 编程 操作 CSV 和 
JSON 文 件 。 


“第 15 章 : 保持 时 间 、 计 划 任 务 和 启动 程序 ”解释 了 Python 程序 如 何 
处 理 时 间 和 日 期 ， 如 何 安 排 计算 机 在 特定 时 间 执 行 任务 。 这 一 章 也 展示 
了 Python 程 序 如 何 启动 非 Python 程 序 。 


“第 16 章 : 发 送 电子 邮件 和 短信 ?解释 了 如 何 编程 来 发 送 电子 邮件 和 


短信 。 


“第 17 章 : 操作 图 像 ” 解 释 了 如 何 编程 来 操作 JPG 或 PNG 这 样 的 图 


“第 18 章 : 用 GUI 自动 化 控制 键盘 和 鼠标 ?解释 了 如 何 编程 控制 鼠标 
和 键盘 ， 目 动 化 鼠标 点 击 和 击 键 。 


下 载 和 安装 Python 





可 以 从 http:/python.org/downloads/ 免 费 下 载 针 对 Windows、OS X#il 
Ubuntu 的 Python 版 本 。 如 采 你 从 该 网 站 的 下 载 页 面 下载 了 最 新 的 版 本 ， 
本 书 中 的 所 有 程序 应 该 都 能 工作 。 


Wane 


请 确保 下 载 Python 3 的 版 本 《诸如 3.4.0) 。 本 书 中 的 程序 将 运行 在 Python 3 上 ， 有 一 部 分 
程序 在 Python 2 上 也 许 不 能 正常 运行 。 


你 需要 在 下 载 页 面 上 找到 针对 64 位 或 32 位 计算 机 以 及 特定 操作 系统 
的 Python 安装 程序 ， 所 以 先 要 和 弄 清 楚 你 需要 哪个 安装 程序 。 如 果 你 的 计 
算 机 是 2007 年 或 以 后 购买 的 ， 很 有 可 能 是 64 位 的 系统 。 人 和 否则， 可 能 是 32 
位 的 系统 ， 但 下 面 是 确认 的 方法 : 


。 在 Windows 上 。 选 择 StartControlPanelSystem。 检 查 系 统 类 型 是 64 位 
或 32 位 。 

。 在 OS 久 上 ， 进 入 Apple 菜 单 ， 选 择 About This 

MacMoreInfoSystemReport Hardware， 然 后 查看 Processor Name 字 

段 。 如 果 是 Pntel Core Solo 或 Intel Core Duo， 机 器 是 32 位 的 。 如 果 是 

其 他 (包括 Intel Core 2 Duo) ， 机 器 是 64 位 的 。 

在 Ubuntu Linux 上， 打开 终端 窗口 ， 运 行 命令 uname -m。 结 果 是 

i686 表 示 是 32 位 ，x86_64 表 示 是 64 位 。 


在 Windows 上 ， 下 载 Python 安 装 程序 (文件 扩展 名 是 .msi) ， 并 双 
击 它 。 按 照 安装 程序 显示 在 屏幕 上 的 指令 来 安装 Python， 步 骤 如 下 。 


1. 选择 Install for All Users， 然 后 点 击 Next。 









































2. 通过 点 击 Next 安 装 到 C:\Python34 文 件 夹 。 
3. 再 次 点 击 Next， 跳 过 定制 Python 的 部 分 。 


在 OS X 上 ， 下 载 适 合 你 的 OS X 版 本 的 .dmg 文 件 ， 并 双击 它 。 按 照 
安装 程序 显示 在 屏幕 上 的 指令 来 安装 Python， 步 又 如 下 。 


1. 当 DMG 包 在 一 个 新 窗口 中 打开 时 ， 双 击 Python.mpkg 文 件 。 你 可 
能 必须 输入 管理 员 口 令 。 


2. 点 击 Continue， 跳 过 欢迎 部 分 ， 并 点 击 Agree， 接 受 许 可 证 。 








3. 选择 HD Macintosh 〈 或 者 你 的 硬盘 的 名 字 ) ， 并 点 击 Install。 
如 果 使 用 的 是 Ubuntu， 可 以 从 终端 窗口 安装 Python， 步 骤 如 下 。 


1. 打开 终端 窗口 。 


N 


. 输入 sudo apt-get install python3. 
3. 输入 sudo apt-get install idle3. 


4. 输入 sudo apt-get install python3-pip. 


启动 IDLE 


Python 解释 器 是 运行 Python 程序 的 软件 ， 而 交互 式 开 发 环境 
(IDLE) 是 输入 程序 的 地 方 ， 束 像 一 个 字 处 理 软件 。 现 在 让 我 们 局 动 
IDLE. 


在 Windows7 或 更 新 的 版 本 上 ， 点 击 屏幕 左下 角 的 开始 图 标 ， 在 搜 

索 框 中 输入 IDLE， 并 选择 IDLE (Python GUI) 。 

e Windows XP 上 ， 点 击 开 始 按钮 ， 然 后 选择 ProgramsPython 
3.4IDLE (Python GUI) 。 

。 在 OSX 上 ， 打 开 Finder 窗 口 ， 点 击 Applications， 点 击 Python 3.4, 
然后 点 击 IDLE 的 图 标 。 

。 在 Ubuntu 上 ， 选 择 ApplicationsAccessoriesTerminal， 然 后 输入 

idle3《〈 也 许 你 也 可 以 点 击 屏 幕 项 部 的 Applications， 选 择 

Programming， 然 后 点 击 IDLE 3) 。 


交互 式 环境 


无 论 你 使 用 什么 操作 系统 ， 初 次 出 现 的 IDLE 窗 口 应 该 基本 上 是 空 
的 ， 除 了 类 似 下 面 这 样 的 文本 : 








Python 3.4.0 (v3.4.0:04f714765c13, Mar 16 2014, 19:25:23) [MSC v.1600 64 
bit (AMD64)] on win32Type "copyright", "credits" or "license()" for more 
information. 

>>> 


| 


这 个 窗口 称 为 交互 式 环 境 。 这 是 让 你 向 计算 机 输入 指令 的 程序 ， 很 
像 OS X 上 的 终端 窗口 ， 或 Windows 上 的 命令 行 提示 符 。Python 的 交互 式 
环境 让 你 输入 指令 ， 供 Python 解 释 器 软件 来 执行 。 计 算 机 读 入 你 输入 的 
指令 ， 并 立即 执行 它们 。 


例如 ， 在 交互 式 环境 的 >>> 提 示 符 后 输入 以 下 指令 : 


>>> print('Hello world!') 








n FEM AAT IFS BIH, 2 SUA EER R A T A AEA 
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>>> print('Hello world!') 


Hello world! 





如 何 寻 求 帮 助 
独自 解决 编程 问题 可 能 比 你 想 的 要 容易 。 如 果 你 不 相信 ， 就 让 我 们 


故意 产生 一 个 错误 : 在 交互 式 环境 中 输入 42' + 3。 现 在 你 不 需要 知道 这 
条 指令 是 什么 意思 ， 但 结果 看 起 来 应 该 像 这 样 : 


@ Traceback (most recent call last): 
File "<pyshell#@>", line 1, in <module> 


'42' + 3 
@ TypeError: Can't convert ‘int' object to str implicitly 
>>> 





这 里 出 现 了 错误 信息 信 ， 因 为 Python 不 理解 你 的 指令 。 错 误 信息 的 
traceback 部 分 @ 显 示 了 Python 遇 到 困难 的 特定 指令 和 行 号 。 如 果 你 不 知 
道 怎 样 处 理 特定 的 错误 信息 ， 就 在 线 碍 找 那 条 错误 信息 。 在 你 喜欢 的 搜 
索引 擎 上 输入 “TypeError: Can't convert 'int object to str implicitly”( 包 括 
引号 ) ， 你 就 会 看 到 许多 的 链接 ， 人 解释 这 条 错误 信息 的 含义 ， 以 及 什么 
原因 导致 这 条 错误 ， 如 图 2 所 示 。 


你 常常 会 及 现 ， 别 人 也 遇 到 了 同样 的 问题 ， 而 其 他 乐于 助人 的 人 已 
经 回答 了 这 个 问题 。 没 有 人 知道 编程 的 所 有 方面 ， 所 以 所 有 软件 开发 者 
的 工作 ， 都 是 每 天 在 寻找 技术 问题 的 答案 。 











Go gle "TypeError Can't convert ‘int’ object to str implicitly" 山 a | 


Web Shopping Images News Videos More+ Search tools 


About 2,100 results (0.31 seconds) 


python - TypeError: Can't convert 'int object to str implicitly ...@ © 
stackoverflow.com/_../typeerror-cant-convert-int-object-to-str-implicitly ~ 
Nov 30, 2012 - You cannot concatenate a string with an int. You 


would need to convert your int to string using str function, or use 
formatting to format your output. 


TypeError: Can't convert 'int' object to str implicitly error pythoné © 
stackoverflow.com/_../typeerror-cant-convert-int-object-to-str-implicitly-.. 7 
Sep 22, 2013 - As the error message say, you can't add int 


object to str object. >>> 'str' + 2 Traceback (most recent call 
last): File "<stdin>", line 1, in <module> ... 


Can't convert 'int object to str implicitly: Python 3+ - Stack ..@ O 
stackoverflow.com/.../cant-convert-int-object-to-str-implicitly-python-3 7 

Nov 5, 2013 - Traceback (most recent call last): File "main.py", 
line 29, in alltrees = distinct(x+1) TypeError: Can't convert ‘int’ 
object to str implicitly. python int ... 


python-forum.org * View topic - Can't convert 'int' object to str ...@ 








图 2 错误 信息 的 Google 搜 索 结果 可 能 非常 有 用 


聪明 地 提出 编程 问题 
如 果 不 能 在 线 查找 到 答案 ， 请 尝试 在 Stack 


Overlow (http://stackoverflow.com/ ) 

aY“learnprogramming”subreddit (http://reddit.com/r/learnprogramming/ ) 
这 样 的 论坛 上 提问 。 但 要 记 住 ， 用 耶 明 的 方式 提出 编程 问题 ， 这 有 助 于 
A a see ae 
问 方式 。 


在 提出 编程 问题 时 ， 要 记 住 以 下 几 点 。 


。 说 明 你 打算 做 什么 ， 而 不 只 是 你 做 了 什么 。 这 让 帮助 你 的 人 知道 你 
ERE S Ro 











明确 指出 发 生 错 误 的 地 方 。 它 是 在 程序 每 次 启动 时 发 生 ， 还 是 在 你 
做 了 某 些 动作 之 后 ? 

将 完整 的 错误 信息 和 你 的 代码 复制 粘贴 到 http://pastebin.com/ 

或 http://gist. github.com/ 。 

这 些 网 站 让 你 很 容易 在 网 上 与 他 人 共享 大 量 的 代码 ， 而 不 会 丢失 任 
何 文本 格式 。 然 后 你 可 以 将 贴 出 的 代码 的 URL 放 在 电子 邮件 或 论坛 
帖子 中 。 例 如 ， 这 里 是 我 贴 出 的 一 些 代码 厂 

E: http://pastebin.com/SzP2DbFx/ 和 https://gist.github. com/ 
asweigart/6912168/ 。 

解释 你 为 了 解决 这 个 问题 已 经 尝试 了 哪些 方法 。 这 会 告诉 别人 你 已 
经 做 了 一 些 工 作 来 弄 清楚 状况 。 

列 出 你 使 用 的 Python 版 本 (Python 2 解释 器 和 Python3 解 释 器 之 间 有 
一 些 重 要 的 区 别 ) 。 而 且 ， 要 说 明 你 使 用 的 操作 系统 和 版 本 。 

如 果 错 误 在 你 更 改 了 代码 之 后 出 现 ， 准 确 说 明 你 改 了 什么 。 

说 明 你 是 否 在 每 次 运行 该 程序 时 都 能 重 现 该 错误 ， 或 者 它 只 是 在 特 
定 的 操作 执行 之 后 才 出 现 。 如 果 是 这 样 ， 解 释 是 哪些 操作 。 


也 要 如 守 民 好 的 在 线 礼 布 。 例 如 ， 不 要 全 用 大 写 提问 ， 或 者 对 试图 
帮助 你 的 人 提出 无 理 的 要 求 。 











小 结 


对 于 大 多 数 人 ， 他 们 的 计算 机 只 是 设备 ， 而 不 是 工具 。 但 通过 学 习 
如 何 编程 ， 你 就 能 利用 现代 社会 中 最 强大 的 工具 ， 并 且 你 会 一 直 感 到 快 
乐 。 编 程 不 是 脑 外 科 手 术 ， 业 余人 士 是 完全 可 以 尝试 或 犯错 的 。 


我 喜欢 帮助 人 们 探索 Python。 我 在 自己 的 博客 上 编写 编程 指南 
Chttp:/ inventwithpython.com/blog/ ) ， 你 可 以 发 邮件 向 我 提问 
Cal@inventwithpython.com) 。 


本 书 将 从 零 编程 知识 开始 ， 但 你 的 问题 可 能 超出 本 书 的 范围 。 记 住 
如 何 有 效 地 提问 ， 知 道 如 何 寻找 答案 ， 这 对 你 的 编程 之 旅 是 无 价 的 工 
Ho 


N 





让 我 们 开始 吧 ! 
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第 1 章 Python 基础 


Python 编程 语言 有 许多 语法 结构 、 标 准 库 函 数 和 交互 式 开发 环境 功 
能 。 好 在 ， 你 可 以 忽略 大 多 数 内 容 。 你 只 需要 学 习 部 分 内 容 ， 就 能 编写 
一 些 方便 的 小 程序 。 


但 在 动手 之 前 ， 你 必须 学 习 一 些 基本 编程 概念 。 就 像 魔 法 师 培 训 ， 
你 可 能 认为 这 些 概念 既 深 奥义 吃 叶 ， 但 有 了 一 些 知 识 和 实践 ， 你 就 能 像 
魔法 师 一 样 指挥 你 的 计算 机 ， 完 成 难以 置信 的 事情 。 


本 音 有 几 个 例子 ， 我 们 就 励 你 在 交互 式 环境 中 输入 它们 。 区 互 式 环 
境 让 你 每 次 执行 一 条 Python 指令 ， 并 立即 显示 结果 。 使 用 交互 式 环境 对 
于 了 解 基本 Python 指令 的 行为 是 很 好 的 ， 所 以 你 在 阅读 时 要 试 一 下 。 做 
过 的 事 比 仅仅 读 过 的 内 容 ， 更 令 人 印象 深刻 。 


1.1 在 交互 陈 环境 中 输入 表达 式 


启动 IDLE 束 运行 了 交互 式 环境 ， 这 是 和 Python 一 起 安装 的 。 在 
Windows 上 ， 打 开 “ 开 始 ” 菜 单 ， 选 择 “All ProgramsPython 3.3”， 然 后 选 
择 “IDLE (Python GUI) ”。 在 OS X 上 ， 选 择 “ApplicationsMacPython 
3.3IDLE”。 在 Ubuntu 上 ， 打 开 新 的 终端 窗口 并 输入 idle3。 


一 小 窗口 会 出 现 ， 包含 >>> 提 示 符 ， 这 束 是 交互 式 环境 。 在 提示 符 
后 输入 2 + 2， 让 Python 做 一 些 简 单 的 算术 。 














>>> 2 + 2 


小 





IDLE 窗 口 现 在 应 该 显示 下 面 这 样 的 文本 : 


Python 3.3.2 (v3.3.2:d047928ae3f6, May 16 2013, 00:06:53) [MSC v.1600 64 bi 
(AMD64)] on win32 


Type "copyright", "credits" or "license()" for more information. 
>>> 2 + 2 


4 


>>> 











在 Python 中 ，2 + 2 称 为 “表达 式 ”， 它 是 语言 中 最 基本 的 编程 吉 构 。 
表达 式 包 含 “ 值 ”( 例 如 2〉 和 “操作 符 ”( 例 如 +) ， 并 且 总 是 可 以 求 值 
《也 就 是 归 约 ) 为 单个 值 。 这 意味 着 在 Python 代码 中 ， 所 有 使 用 表达 式 
的 地 方 ， 也 可 以 使 用 一 个 值 。 


在 前 面 的 例子 中 ，2 + 2 被 求 值 为 单个 值 4。 没 有 操作 符 的 单个 值 也 
被 认为 是 一 个 表达 式 ， 尽 管 它 求 值 的 结果 就 是 它 目 己 ， 像 下 面 这 样 : 





>>> 2 


ERKA! 





























如 果 程 序 包含 计算 机 不 能 理解 的 代码 ， 就 会 朋 涡 ， 这 将 导致 Python 显示 错误 信息 。 错 误 信 
息 并 不 会 破 不 你 的 计算 机 ， 所 以 不 要 害怕 犯错 误 。 “崩溃 * 只 是 意味 着 程序 意外 地 停止 执行 。 


如 果 你 希望 对 一 条 错误 信息 了 解 更 多 ， 可 以 在 网 上 查找 这 条 信息 的 准确 文本 ， 找 到 关于 
这 个 错误 的 更 多 内 容 。 也 可 以 查看 http://nostarch.com/automatestuff/ ， 这 里 有 常见 的 Python 错 误 
信息 和 含义 的 列表 。 


Python 表 达 式 中 也 可 以 使 用 大 量 其 他 操作 符 。 例 如 ， 表 1-1 列 出 了 
Python 的 所 有 数学 操作 符 。 



















































































表 1-1 数学 操作 符 ， 优 先 级 从 高 到 低 

















数学 操作 符 的 操作 顺序 (也 称 为 “优先 级 ”) 与 数学 中 类 似 。** 操 作 
和 从 站 和 完 求 值 ， 接 下 来 是 *、/、// 和 % 操 作 符 ， 从 左 到 右 。+ 和 -操作 符 最 后 
求 值 ， 也 是 从 左 到 右 。 如 果 需 要 ， 可 以 用 括 写 来 改变 通常 的 优先 级 。 在 
交互 式 坏 境 中 输入 下 列表 达 式 : 





>>>2+3*6 


20 
>>> (2 + 3) * 6 


30 
>>> 48565878 * 578453 


28093077826734 
>>> 2 ** 8 


256 
>>> 23 / 


7 
3.2857142857142856 
>>> 23 // 7 


3 
>>> 23 % 7 


>>> 2+ 2 


4 
>>> (5 - 1) * ((7 + 1) / (3 - 1)) 





在 每 个 例子 中 ， 作 为 程序 员 ， 你 必须 输入 表达 式 ， 但 Python 完成 较 
难 的 工作 ， 将 它 求 值 为 单个 值 。Python 将 继续 求 值 表达 式 的 各 个 部 分 ， 
直到 它 成 为 单个 值 ， 如 图 1-1 所 示 。 
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图 1-1 表达 式 求 值 将 它 归 约 为 单个 值 


将 操作 符 和 值 放 在 一 起 构成 表达 式 的 这 些 规则 ， 是 Python 编程 语 
言 的 基本 部 分 ， 就 像 帮助 我 们 沟通 的 语法 规则 一 样 。 下 面 是 例子 : 





This is a grammatically correct English sentence. 
This grammatically is sentence not English correct a. 


第 二 行 很 难 解释 ， 因 为 它 个 符合 英语 的 规则 。 类 似 地 ， 如 采 你 输入 
错误 的 Python 指令 ，Python 也 不 能 理解 ， 就 会 显示 出 错误 信息 ， 像 下 面 


这 样 : 


File "<stdin>", line 1 
5 + 
N 


SyntaxError: invalid syntax 
>>> 42 +5 + 2 


File "<stdin>", line 1 
42+5+* 2 
N 


SyntaxError: invalid syntax 





你 总 是 可 以 在 交互 式 环 境 中 输入 一 条 指令 ， 检 查 它 是 否 能 工作 。 不 
要 担心 会 弄 坏 计 算 机 : 最 坏 的 情况 就 是 Python 显 示 出 错 信息 。 专 业 的 软 
件 开发 者 在 编写 代码 时 ， 常 常会 遇 到 错误 信息 。 


1.2 整 型 、 浮 点 型 和 字符 串 数 据 类 型 


记 住 ， 表 达 式 是 值 和 操作 符 的 组 合 ， 它 们 可 以 通过 求 值 成 为 单个 
值 。“ 数 据 类 型 ”是 一 类 值 ， 每 个 值 都 只 属于 一 种 数据 类 型 。 表 1-2 列 出 
了 Python 中 最 常见 的 数据 类 型 。 例 如 ， 值 -2 和 30 属 于 “ 整 型 > 值 。 整 型 
(或 int) 数据 类 型 表明 值 是 整数 。 带 有 小 数 点 的 数 ， 如 3.14， 称 为 “ 浮 
点 型 ”( 或 float) 。 请 注意 ， 尽 管 42 是 一 个 整 型 ， 但 42.0 是 一 个 浮 点 型 。 














表 1-2 常见 数据 类 型 


数据 类 型 例子 


-2, -1, 0, 1, 2, 3, 4, 5 


-1.25, -1.0, - -0.5, 0.0, 0.5, 1.0, 1.25 


‘a’, 'aa', ‘aaa’, 'Hello!', '11 cats' 








Python 程序 也 可 以 有 文本 值 ， 称 为 “字符 串 ”， 或 strs (发 音 
为 “stirs”) 。 总 是 用 单 引 号 C 包围 住 字符 串 〈 例 如 'Hello' 或 'Goodbye 
cruel world!') ， 这 样 Python 就 知道 字符 串 的 开始 和 结束 。 甚 至 可 以 有 没 
有 字符 的 字符 串 ， 称 为 “ 空 字 符 串 ”*?。 第 4 章 更 详细 地 解释 了 字符 串 。 


如 果 你 看 到 错误 信息 SyntaxError: EOL while scanning string literal, 
可 能 是 态 记 了 字符 串 末 尾 的 单 引号 ， 如 下 面 的 例子 所 示 : 








>>> "Hello world! 


SyntaxError: EOL while scanning string literal 








1.3 字符 串 连 接 和 复制 


根据 操作 符 之 后 的 值 的 数据 类 型 ， 操 作 符 的 含义 可 能 会 改变 。 例 
如 ， 在 操作 两 个 整 型 或 浮 点 型 值 时 ，+ 是 相 加 操作 符 。 但 是 ， 在 用 于 两 
个 字符 串 时 ， 它 将 字符 捉 连 接 起 来 ， 成 为 “字符 串 连 接 ” 操 作答 。 在 交互 
式 环境 中 输入 以 下 内 容 : 


>>> 'Alice' + 'Bob' 





"AliceBob' 


该 表达 式 求 值 为 一 个 新 字符 串 ， 包 含 了 两 个 字符 串 的 文本 。 但 是 ， 
如 琳 你 对 一 个 字符 串 和 一 个 整 型 值 使 用 加 操作 符 ，Python 残 不 知道 如 何 


处 理 ， 它 将 显示 一 条 错误 信息 。 





>>> 'Alice' + 42 


Traceback (most recent call last): 


File "<pyshell#26>", line 1, in <module> 
'Alice' + 42 
TypeError: Can't convert ‘int' object to str implicitly 





错误 信息 Can't convert 'int object to str implicitly 表 示 Python 认 为 ， 你 
试图 将 一 个 整数 连接 到 字符 串 'Alice'。 代 码 必须 显 式 地 将 整数 转换 为 字 
符 串 ， 因 为 Python 不 能 自动 完成 转换 。 “(1.6 市 “程序 剖析 ”在 讨论 函数 
时 ， 将 解释 数据 类 型 转换 。) 


在 用 于 两 个 整 型 或 浮 点 型 值 时 ，* 操 作 符 表示 乘法 。 但 * 操 作 符 用 于 
一 个 字符 串 值 和 一 个 整 型 值 时 ， 它 变 成 了 “字符 串 复制 ”操作 符 。 在 交互 
式 环境 中 输入 一 个 字符 串 乘 一 个 数字 ， 看 看 效果 。 





>>> ‘Alice’ * 5 


"AliceAliceAliceAliceAlice' 








RIED ANTEATER CORGORIN FETT BE a TK, W 
就 是 整 型 的 值 。 字 符 串 复制 是 一 个 有 用 的 技巧 ， 但 不 像 字符 串 连 接 那 样 
常用 。 


* 操 作 符 只 能 用 于 两 个 数字 作为 乘法 ) ， 或 一 个 字符 串 和 一 个 整 
型 (作为 字符 串 复制 操作 符 ) 。 否 则 ，Python 将 显示 错误 信息 。 








>>> ‘Alice’ * 'Bob' 


Traceback (most recent call last): 
File "<pyshell#32>", line 1, in <module> 
"Alice' * 'Bob' 
TypeError: can't multiply sequence by non-int of type ‘str' 
>>> 'Alice' * 5.0 


Traceback (most recent call last): 
File "<pyshell1#33>", line 1, in <module> 
'Alice' * 5.0 
TypeError: can't multiply sequence by non-int of type “float 





Python 不 理解 这 些 表达 式 是 有 道理 的 ; 你 不 能 把 两 个 单词 相 乘 ， 也 
很 难 将 一 个 任意 字符 串 复 制 小 数 次 。 


1.4 在 变量 中 保存 值 








“变量 ”就 像 计 算 机 内 存 中 的 一 个 盒子 ， 其 中 可 以 存放 一 个 值 。 如 果 
你 的 程序 稍 后 将 用 到 一 个 已 求 值 的 表达 式 的 结果 ， 就 可 以 将 它 保 存在 一 
个 变量 中 。 
1.4.1 赋值 语句 

用 “赋值 语句 ”将 值 保 存在 变量 中 。 赋 值 语句 包含 一 个 变量 名 、 一 个 
等 号 《〈 称 为 赋值 操作 符 ) ， 以 及 要 存储 的 值 。 如 果 输 入 赋值 语句 Spam = 
42， 那 么 名 为 Spam 的 变量 将 保存 一 个 整 型 值 42。 


可 以 将 变量 看 成 一 个 带 标签 的 盒子 ， 值 放 在 其 中 ， 如 图 1-2 所 示 。 








图 1-2 spam = 42 就 像 是 告诉 程序 “变量 spam 现 在 有 整数 42 放 在 里 面 ” 
例如 ， 在 交互 式 环境 中 输入 以 下 内 容 : 





@ >>> spam = 40 


>>> Spam 


46 
>>> eggs = 2 


@ >>> spam + eggs 


42 
>>> Spam + eggs + spam 


82 
© >>> spam = spam + 2 


>>> Spam 


42 





第 一 次 存 入 一 个 值 ， 变 量 就 被 “初始 化 ”( 或 创建 》@。 此 后 ， 可 以 
在 表达 式 中 使 用 它 ， 以 及 其 他 变量 和 值 介 。 如 果 变 量 被 赋 了 一 个 新 值 ， 
老 值 就 被 忘记 了 全。 这 就 是 为 什么 在 例子 结束 时 ，spam 求 值 为 42， 而 不 








征 40。 这 称 为 “复写 ?该 变量 。 在 交互 式 环境 中 输入 以 下 代码 ， 沦 试 覆 写 
EFT EB 


>>> spam = "Hello' 


>>> Spam 


"Hello' 
>>> spam = 'Goodbye' 


>>> Spam 


"Goodbye' 





就 像 图 1-3 中 的 盒子 ， 这 个 例子 中 的 spam 变 量 保存 了 'Hello"， 直 到 你 
用 'Goodbye' 蔡 代 它 。 





图 1-3 如 果 一 个 新 值 赋 给 变量 ， 老 值 就 被 遗忘 了 
1.4.2 变量 名 


表 1-3 中 有 一 些 合 法 变量 名 的 例子 。 你 可 以 给 变量 取 任 何 名 字 ， 只 
要 它 遵守 以 下 3 条 规则 





1. AAee— Pia. 
2. 只 能 包含 字母 、 数 字 和 下 划 线 。 
3. 不 能 以 数字 开头 。 
表 1-3 有 效 和 无 效 的 变量 名 


有 效 的 变量 名 无 效 的 变量 名 





current-balance 〈 不 允许 中 划 线 ) 


currentBalance current balanc 〈 不 允许 空 


Aaccount 〈 不 允许 数字 开头 ) 





total Sum (不 允许 $ 这 样 的 特殊 字符 ) 


变量 名 是 区 分 大 小 写 的 。 这 意味 着 ，spam、 SPAM、Spam 和 sPaM 
是 4 个 不 同 的 变量 。 变 量 用 小 写字 母 开 头 是 Python 的 惯例 。 


本 书 的 变量 名 使 用 了 驼峰 形式 ， 没 有 用 下 划 线 。 也 就 是 说 ， 变 量 名 
用 lookLikeThis， 而 不 是 looking_like_this。 一 些 有 经 验 的 程序 员 可 能 会 
指出 ， 官 方 的 Python 代码 风格 PEP 8， 即 应 该 使 用 下 划 线 。 我 喜欢 驼峰 
式 ， 这 没有 错 ， 并 认为 PEP 8 本 喘 “ 电 蠢 的 一 致 性 是 头脑 狭隘 人 士 的 心 
魔 ”: 
“一 致 地 满足 风格 指南 是 重要 的 。 但 最 重要 的 是 ， 知道 何 时 要 不 一 致 ， 因 为 有 时 候 风 格 指南 就 
是 不 适用 。 如 果 有 怀疑 ， 请 相信 自己 的 最 佳 判断 。 


好 的 变量 名 描述 了 它 包 含 的 数据 。 设 想 你 搬 到 一 间 新 屋子 ， 搬 家 纸 
箱 上 标的 都 是 “东西 ?。 你 :永远 找 不 到 任何 东西 本 书 的 例子 和 许多 
Python 的 文档 ， 使 用 spam、eggs 和 bacon 等 变量 名 作为 一 般 名 称 (受到 
Monty Python 的 “Spam” 短 剧 的 影响 》， 但 在 你 的 程序 中 ， 具有 描述 性 的 
名 字 有 助 于 提高 代码 可 读 性 。 


1.5 第 一 个 程序 


虽然 交互 式 环境 对 于 一 次 运行 一 条 Python 指令 很 好 ， 但 要 编写 完整 
的 Python 程 序 ， 就 需要 在 文件 编辑 器 中 输入 指令 。“ 文 件 编 辑 器 ”类 似 于 
Notepad 或 TextMate 这 样 的 文本 编辑 器 ， 它 有 一 些 针 对 输入 源 代码 的 特 
殊 功 能 。 要 在 IDLE 中 打开 文件 编辑 器 ， 请 选择 FileNew *Window。 







































































出 现 的 窗口 中 应 该 包含 一 个 光标 ， 等 竺 你 和 苯 入 ， 但 它 与 交互 式 环境 
不 同 。 在 交互 式 环境 中 ， 按 下 回 和 车， 束 会 执行 Python 指 仿 。 文 件 编辑 右 
als 保存 为 文件 ， 并 运行 该 程序 。 下 面 是 区 别 这 两 者 的 
方法 : 


。 交 互 式 环境 窗口 总 是 有 >>> 提 示 符 。 
。 文 件 编辑 器 窗口 没有 >>> 提 示 符 。 

现在 是 创建 第 一 个 程序 的 时 候 了 ! 在 文件 编辑 器 窗口 打开 后 ， 输 入 
以 下 内 容 : 








@ # This program says hello and asks for my name. 


@ print('Hello world!') 
print('What is your name?') # ask for their name 
© myName = input() 
© print('It is good to meet you, ' + myName) 
© print('The length of your name is:') 
print (len(myName) ) 


© print('What is your age?') # ask for their age 
myAge = input() 
print('You will be ' + str(int(myAge) + 1) + ' in a year.') 








在 输入 完 源 代码 后 保存 它 ， 这 样 承 不 必 在 每 次 局 动 IDLE 时 重新 输 
入 。 从 文件 编辑 器 窗口 顶部 的 菜单 ， 选 择 File>Save As。 在 “Save As” ff 
口中 ， 在 输入 框 输入 hello.py， 然 后 点 击 “Save”。 


在 输入 程序 时 ， 应 该 过 一 段 时 间 就 保存 你 的 程序 。 这 样 ， 如 果 计 算 
机 骨 溃 ， 或 者 不 小 心 退出 了 IDLE， 也 不 会 丢失 代码 。 作 为 快捷 键 ， 可 
以 在 Windows 和 Linux 上 按 Ctrl-S， 在 OS X 上 按 拒 -S$， 来 保存 文件 。 


在 保存 文件 后 ， 让 我 们 来 运行 程序 。 选 择 Run*Run Module， 或 按 下 
F5 键 。 程 序 将 在 交互 式 环境 窗口 中 运行 ， 该 窗口 是 首次 局 动 IDLE 时 出 
现 的 。 记 住 ， 必 须 在 文件 编辑 器 窗口 中 按 F5， 而 不 是 在 交互 式 环 境 窗口 
中 。 在 程序 要 求 输入 时 ， 输 入 你 的 名 字 。 在 交互 式 环境 中 ， 程 序 输出 应 
该 看 起 来 像 这 样 : 

















Python 3.3.2 (v3.3.2:d047928ae3f6, May 16 2013, 00:06:53) [MSC v.1600 64 bi 
(AMD64)] on win32 
Type "copyright", "credits" or "license()" for more information. 

RESTART 


Hello world! 


What is your name? 
Al 


It is good to meet you, Al 


The length of your name is: 
2 

What is your age? 

4 


You will be 5 ina year. 
>>> 





如 果 没 有 更 多 代码 行 要 执行 ，Python 程 序 就 会 < 中 止 >。 也 就 是 说 ， 
它 停 止 运行 。〈 也 可 以 说 Python 程序 “退出 > 了 。 ) 

可 以 通过 点 击 窗口 上 部 的 X， 关 闭 文件 编辑 器 。 要 重新 加 载 一 个 保 
存 了 的 程序 ， 就 在 菜单 中 选择 File>Open。 现 在 请 这 样 做 ， 在 出 现 的 窗 
口中 选择 hello.py， 并 点 击 “Open” 按 钮 。 前 面 保存 的 程序 hello.py 应 该 在 
文件 编辑 器 窗口 中 打开 。 


1.6 FEF HI ir 
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1.6.1 注释 


下 面 这 行 称 为 “注释 ”。 


@ # This program says hello and asks for my name. 





Python 会 忽略 注释 ， 你 可 以 用 它们 来 写 程 序 注解 ， 或 提醒 目 己 代码 
试图 完成 的 事 。 这 一 行 中 ，# 标 志 之 后 的 所 有 文本 都 是 注释 。 
有 了 时候， 程序 员 在 测试 代码 时 ， 会 在 一 行 代码 前 面 加 上 #， 临 时 删 


除 它 。 这 称 为 "注释 掉 ” 代 码 。 在 你 想 搞 清楚 为 什么 程序 不 工作 时 ， 这 样 
做 可 能 有 用 。 稍 后 ， 如 宋 你 准备 还 原 这 一 行 代 码 ， 可 以 去 掉 #。 


Python 也 会 忽略 注释 之 后 的 空 行 。 在 程序 中 ， 想 加 入 空 行 时 就 可 以 
加 入 。 这 会 让 你 的 代码 更 容易 阅读 ， 就 像 书 中 的 段落 一 样 。 











1.6.2 print() 函 数 
printO 函 数 将 括号 内 的 字符 串 显 示 在 屏幕 上 。 


@ print('Hello world!') 
print('What is your name?') # ask for their name 





代码 行 print(Hello world!") 表 示 “ 打 印 出 字符 串 'Hello world! 的 文 
本 。Python 执 行 到 这 行 时 ， 你 告诉 Python 调 用 print() 阔 数 ， 并 将 字符 
串 “ 传 递 ” 给 函数 。 传 递 给 函数 的 值 称 为 “参数 "。 请 注意 ， 引 号 没有 打印 
在 屏 大 上 。 它 们 只 是 表示 字符 串 的 起 止 ， 不 是 字符 串 的 一 部 分 。 


也 可 以 用 这 个 函数 在 屏幕 上 打印 出 空 行 ， 只 要 调用 printO 就 可 以 
了 ， 括 号 内 没有 任何 东西 。 











在 写 函 数 名 时 ， 末 尾 的 左右 括号 表明 它 是 一 个 函数 的 名 字 。 这 了 吏 是 
B 第 2 章 更 详细 地 探讨 了 函 


1.6.3 input() eA žr 
函数 等 待 用 户 在 键盘 上 输入 一 些 文本 ， 并 按 下 回 车 键 。 


© myName = input() 





这 个 函数 求 值 为 一 个 字符 串 ， 即 用 户 输 入 的 文本 。 前 面 的 代码 行将 
这 个 字 符 串 丑 给 变量 myName。 


你 可 以 认为 inputO 函 数 调用 是 一 个 表达 式 ， 它 求 值 为 用 户 输入 的 任 
何 字 符 串 。 如 果 用 户 输入 'Al'， 那 么 该 表达 式 束 求 值 为 myName = 'Al'。 


1.6.4 打印 用 户 的 名 字 
接 下 来 的 print(0) 调 用 ， 在 括号 间 包 含 表达 式 'Tt is good to meet you, ' + 


myName。 


© print('It is good to meet you, ' + myName) 








要 记 住 ， 表 达 式 总 是 可 以 求 值 为 一 个 值 。 如 果 'Al 是 上 一 行 代码 保 
存在 myName 中 的 值 ， 那 么 这 个 表达 式 就 求 值 为 Tt is good to meet you, 
Al。 这 个 字符 串 传 给 print()， 它 将 输出 到 屏幕 上 。 





1.6.5 len() ef 20 


你 可 以 同 len0 函 数 传递 一 个 字符 串 (或 包含 字符 串 的 变量 ) ， 然 后 
该 函数 求 值 为 一 个 整 型 值 ， 即 字符 串 中 字符 的 个 数 。 


© print('The length of your name is:') 
print (len(myName) ) 





在 交互 式 环 境 中 输入 以 下 内 容 试 一 试 : 


>>> len('hello') 


5 
>>> len('My very energetic monster just scarfed nachos. ') 


46 
>>> len('') 





就 像 这 些 例 子 ，len(myName) 求 值 为 一 个 整数 。 然 后 它 被 传递 给 
print()， 在 屏幕 上 显示 。 请 注意 ，printO) 人 允许 传 入 一 个 整 型 值 或 字符 串 。 
但 如 果 在 交互 式 环境 中 输入 以 下 内 容 ， 就 会 报错 : 








>>> print('I am ' + 29 + ' years old.') 


Traceback (most recent call last): 
File "<pyshell#6>", line 1, in <module> 
print('I am ' + 29 + ' years old.') 
TypeError: Can't convert ‘int' object to str implicitly 








导致 错误 的 原因 不 是 print0) 函 数 ， 而 是 你 试图 传递 给 print0 的 表达 
式 。 如 果 在 交互 式 环境 中 单独 输入 这 个 表达 式 ， 也 会 得 到 同样 的 错误 。 


>>> 'I am ' + 29 + ' years old.' 


Traceback (most recent call last): 


File "<pyshell#7>", line 1, in <module> 
"I am ' + 29 + ' years old.' 
TypeError: Can't convert ‘int' object to str implicitly 





报错 是 因为 ， 只 能 用 + 操作 符 加 两 个 整数 ， 或 连接 两 个 字符 串 。 不 
能 让 一 个 整数 和 一 个 字符 串 相 加 ， 因 为 这 不 符合 Python 的 语法 。 可 以 使 
用 字符 串 版 本 的 整数 ， 修 复 这 个 错误 。 这 在 下 一 节 中 解释 。 


1.6.6 str()、int() 和 float0 函 数 

如 果 想 要 连接 一 个 整数 〈 如 29) 和 一 个 字符 串 ， 再 传递 给 print()， 
就 需要 获得 值 29'。 它 是 29 的 字符 串 形 式 。str0 函 数 可 以 传 入 一 个 整 型 
值 ， 并 求 值 为 它 的 字符 串 形 式 ， 像 下 面 这 样 : 


>>> str(29) 


"29 
>>> print('I am ' + str(29) + ' years old.') 


I am 29 years old. 





因为 str(29) 求 值 为 :29"， 所 以 表达 式 Tam ' + str(29) + ' years old.' 求 值 
为 Iam '+ '29'+' years old.， 它 又 求 值 为 Tam 29 years old.'。 这 就 是 传递 
给 printO 函 数 的 值 。 


str()、int() 和 float(0) 函 数 将 分 别 求 值 为 传 入 值 的 字符 串 、 整 数 和 浮 点 
数 形式 。 请 尝试 用 这 些 函 数 在 交互 式 环境 中 转换 一 些 值 ， 看 看 会 发 生 什 
A o 








>>> str(@) 


'@' 
>>> str(-3.14) 


"-3.14' 
>>> int('42') 


42 
>>> int('-99') 


-99 
>>> int(1.25) 


1 
>>> int(1.99) 


1 
>>> float('3.14') 


3.14 
>>> float(10) 





前 面 的 例子 调用 了 str0、intO0 和 float0 函 数 ， 向 它们 传 入 其 他 数据 类 
型 的 值 ， 得 到 了 字符 串 、 整 型 或 浮 点 型 的 值 。 


如 有 果 想 要 将 一 个 整数 或 浮 点 数 与 一 个 字符 串 连 接 ，str(0) 函 数 束 很 方 
便 。 如 果 你 有 一 些 字 符 串 值 ， 锅 望 将 它们 用 于 数学 运算 ，int() 函 数 也 很 
有 用 。 例 如 ，input0 函 数 总 是 返回 一 个 字符 串 ， 即 便 用 户 输入 的 是 一 个 
数字 。 在 交互 式 环境 中 输入 spam = input0， 在 它 等 待 文本 时 输入 101。 


>>> spam = input() 


101 
>>> Spam 





保存 在 spam 中 的 值 不 是 整数 101， 而 是 字符 串 '101'。 如 果 想 要 用 
spam 中 的 值 进行 数学 运算 ， 那 就 用 int0 函 数 取得 spam 的 整数 形式 ， 然 后 
将 这 个 新 值 存在 spam 中 。 


>>> spam = int(spam) 


>>> Spam 





现在 你 应 该 能 将 spam 变 量 作为 整数 ， 而 不 是 字符 串 使 用 。 


>>> spam * 10 / 5 


202.0 


WATER, WRI PA ne RKE A EBER Bint), Python 
显示 出 错 信息 。 


>>> int('99.99') 


Traceback (most recent call last): 
File "<pyshell#18>", line 1, in <module> 
int('99.99') 
ValueError: invalid literal for int() with base 10: '99.99' 
>>> int('twelve' ) 


Traceback (most recent call last): 
File "<pyshell#19>", line 1, in <module> 
int('twelve' ) 
ValueError: invalid literal for int() with base 10: 'twelve' 











UHR m BOE BOE T Wis GL, te ny DA Hinto Z. 


>>> int(7.7) 


7 
>>> int(7.7) +1 





e 最 后 3 行使 用 了 函数 int0 和 str0， 取 得 适当 数据 类 型 


© print('What is your age?') # ask for their age 
myAge = input() 
print('You will be ' + str(int(myAge) + 1) + ' in a year.') 





myAge 变 量 包 含 了 inputO 函 数 返 回 的 值 。 因 为 inputO 函 数 总 是 返回 
一 个 字符 串 (即使 用 户 输 入 的 是 数字 )〉 ， 所 以 你 可 以 使 用 inttmyAge) 返 
aoe 的 整 型 值 。 这 个 整 型 值 随后 在 表达 式 int(myAge) + 1 中 与 1 相 
Ho 


相 加 的 结果 传递 给 str() 函 数 : str(int(myAge) + 1)。 然 后 ， 返 回 的 字 
符 串 与 字符 串 "You will be ' 和 ' in a year.' 连 接 ， 求 值 为 一 个 更 长 的 字符 
串 。 这 个 更 长 的 字符 串 最 终 传递 给 print()， 在 屏幕 上 显示 。 


假定 用 户 输入 字符 串 '4'， 保 存在 myAge 中 。 字 符 串 '4' 被 转换 为 一 个 
整 型 ， 所 以 你 可 以 对 它 加 1。 结 果 是 5。str0 函 数 将 这 个 结果 转化 为 字符 
串 ， 这 样 你 就 可 以 将 它 与 第 二 个 字符 串 'in ayear.' 连 接 ， 创 建 最 终 的 消 
妃 。 这 些 求 值 步骤 如 图 1-4 所 示 。 





文本 和 数字 相等 判断 





虽然 数字 的 字符 串 值 被 认为 与 整 型 值 和 浮 点 型 值 完全 不 同 ， 但 整 型 值 可 以 与 浮 点 值 相 








48 


>>> 42 == '42' 


False 


>>> 42 == 42.0 


True 
>>> 42.0 == 0042.000 

















Python 进行 这 种 区 分 ， 因 为 字符 串 是 文本 ， 而 整 型 值 和 浮 点 型 都 是 数字 。 





print({'You will be 
print('You will be 
print('You will be 
print('You will be 


print('You will be 


ry \E NE NE VN 


print({'You will be 





' + str(int( "4 ) + 1) 


+ 


' + str( 4+1 ) 


' + str( 5 ) 


5! 


5 in a year.') 


print{'You will be ' + str(int(myAge) + 1) + 


+ 


in 


in 


in 


in 


in 


in 


d 


d 


d 


d 


d 


d 


year. 


year. 


year. 


year. 


year. 


year. 





图 1-4 如 果 4 保 存在 myAge 中 ， 求 值 的 步骤 
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UAT LAF ANP ABORT EIA TL, BEE SCAR ACD Sa a Ae FB 
连接 。 甚 至 可 以 通过 复制 粘贴 文本 ， 很 容易 地 实现 字符 串 复制 。 但 是 表 
达 式 以 及 组 成 它们 的 值 ( 操 作 符 、 变 量 和 函数 调用 ) ， 才 是 构成 程序 的 
ee a ne Ae 


最 好 是 记 住 本 章 中 介绍 的 不 同类 型 的 操作 符 (+、-、*、/、//、% 
和 ** 是 数学 操作 符 ，+ 和 * 是 字符 串 操作 符 )， 以 及 3 种 数据 类 型 ( 整 
型 、 浮 点 型 和 字符 串 ) 。 


我 们 还 介绍 了 几 个 不 同 的 函数 。print0 和 inputO 函 数 处 理 简 单 的 文 
本 输出 〈 到 屏幕 ) 和 输入 〔 通 过 键盘 ) 。len() 函 数 接 受 一 个 字符 串 ， 并 
求 值 为 该 字符 串 中 字符 的 数目 。 

在 下 一 章 中 ， 你 将 学 习 如 何 告诉 Python 根据 它 拥有 的 值 ， 明 智 地 决 
定 什么 代码 要 运行 ， 什 么 代码 要 跳 过 ， 什 么 代码 要 重复 。 这 称 为 “控制 
流 ”， 它 让 你 编写 程序 来 做 出 明智 的 决定 。 




















1.8 习题 
1. 下 面 哪些 是 操作 符 ， 哪 些 是 值 ? 





2. 下面 哪 个 是 变量 ， 哪 个 是 字符 串 ? 


3. 说 出 3 种 数据 类 型 。 
4. 表达 式 由 什么 构成 ? 所 有 表达 式 都 做 什么 事 ? 
5. 本 章 介 绍 了 赋值 语句 ， 如 spam = 10。 表 达 式 和 语句 有 什么 区 





6. 下 列 语句 运行 后 ， 变 量 bacon 的 值 是 什么 ? 


bacon = 20 
bacon + 1 





7. 下 面 两 个 表达 式 求 值 的 结果 是 什么 ? 


'spam' + 'spamspam' 
"spam' * 3 











8. 为 什么 eggs 是 有 效 的 变量 名 ， 而 100 是 无 效 的 ? 
9. 哪 3 个 函数 能 分 别 取 得 一 个 值 的 整 型 、 浮 点 型 或 字符 串 版 本 ? 





10. 为 什么 这 个 表达 式 会 叶 臻 错误 ?如 何 修 复 ? 


"I have eaten ' + 99 + ' burritos.' 


[L CR 


附加 题 : 在 线 查 找 len0 函 数 的 Python 文档。 它 在 一 个 标题 为 “Built- 
in Functions” 的 网 页 上 。 扫 一 眼 Python 的 其 他 函数 的 列表 ， 查 看 round0) 
函数 的 功能 ， 在 交互 式 环境 中 使 用 它 。 


第 2 章 控制 流 


你 已 经 知道 了 单条 指令 的 基本 知识 。 程 序 就 是 一 系列 指令 。 但 编程 
真正 的 力量 不 仅 在 于 运行 《或 “执行 >) 一 条 接 一 条 的 指令 ， 惑 像 周末 的 
任务 清单 那样 。 根 据 表达 式 求 值 的 结果 ， 程 序 可 以 决定 跳 过 指令 ， 重 复 
指令 ， 或 从 几 条 指令 中 选择 一 条 运行 。 实 际 上 ， 你 几乎 永远 不 希望 程序 
从 第 一 行 代码 开始 ， 简 单 地 执行 每 行 代码 ， 直 到 最 后 一 行 。“ 控 制 流 语 
名 ”可 以 决定 在 什么 条 件 下 执行 哪些 Python 语句 。 


这 些 控制 流 语句 直接 对 应 于 流程 图 中 的 符号 ， 所 以 在 本 章 中 ， 我 将 
提供 示例 代码 的 流程 图 。 图 2-1 展 示 了 一 张 流程 图 ， 内 容 是 如 果 下 两 怎 
么 办 。 按 照 箭头 构成 的 路 径 ， 从 开始 到 结束 。 


在 流程 图 中 ， 通 常 有 不 止 一 种 方法 从 开始 走 到 结束 。 计 算 机 程序 中 
的 代码 行 也 是 这 样 。 流 程 图 用 委 形 表示 这 些 分 文 节 点， 其 他 步骤 用 算 形 
表示 。 开 始 和 结束 步骤 用 融 圆 角 的 官 形 表示 。 


但 在 学 习 流 程控 制 语句 之 前 ， 首 先 要 学 习 如 何 表示 这 些 yes 和 no 选 
项 。 同 时 你 也 需要 理解 ， 如 何 将 这 些 分 文 节点 写成 Python 代码 。 要 做 到 
这 一 点 ， 让 我 们 先 看 看 布尔 值 、 比 较 操 作 符 和 布尔 操作 符 。 























等 会 儿 


是 不 








图 2-1 一 张 流程 图 ， 告 诉 你 如 果 下 雨 要 做 什么 





2.1 布尔 值 


虽然 整 型 、 浮 点 型 和 字符 串 数据 类 型 有 无 数 种 可 能 的 值 ， 但 “ 布 
尔 ” 数 据 类 型 只 有 两 种 值 : True 和 False。Boolean (布尔 ) 的 首 字母 大 
写 ， 因 为 这 个 数据 类 型 是 根据 数学 家 George Boole 命 名 的 。 在 作为 
Python 代码 输入 时 ， 布 尔 值 True 和 False 不 像 字符 串 ， 两 边 没 有 引号 ， 它 
们 总 是 以 大 写字 母 T 或 F 开 头 ， 后 面 的 字母 小 写 。 在 交互 式 环 境 中 输入 下 
面 内 容 ， 其 中 有 些 指令 是 故意 和 弄 错 的 ， 它 们 将 导致 出 错 信息 。 











@ >>> spam = True 


>>> spam 


True 
@>>> true 


Traceback (most recent call last): 
File "<pyshell#2>", line 1, in <module> 
true 
NameError: name 'true' is not defined 
Ə >>> True = 2 + 2 


SyntaxError: assignment to keyword 





像 其 他 值 一 样 ， 布 尔 值 也 用 在 表达 式 中 ， 并 且 可 以 保存 在 变量 中 
@， 如 果 大 小 写 不 正确 人 @， 或 者 试图 使 用 True 和 False 作 为 变量 名 人 @， 


Python 就 会 给 出 错误 信息 。 


2.2 比较 操作 符 


“比较 操作 符 ” 比 较 两 个 值 ， 求 值 为 一 个 布尔 值 。 表 2-1 列 出 了 比较 
操作 符 。 


表 2-1 比较 操作 符 


操作 符 


I> 
X 





这 些 操作 符 根据 给 它们 提供 的 值 ， 求 值 为 me 或 False。 现 在 让 我 们 
尝试 一 些 操作 符 ， 从 == 和 ! = 开始 。 





True 
>>> 42 == 99 


False 
>>> 2 l= 3 


True 
>>> 2 l= 2 


False 





付 


如 果 两 边 的 值 一 样 ，== CSET) 求 值 为 True。 如 果 两 边 的 值 不 
!= (AEF) 求 值 为 True。== 和 != 操 作 符 实 际 上 可 以 用 于 所 有 数据 





同 ， 
类 型 的 值 。 
>>> 'hello' == ‘hello’ 
True 
>>> 'hello' == 'Hello' 
False 
>>> ‘dog’ != ‘cat’ 
True 


>>> True == True 


True 
>>> True != False 


True 
>>> 42 == 42.0 


True 
@ >>> 42 == '42' 


False 





请 注意 ， 整 型 或 浮 点 型 的 值 永远 不 会 与 字符 串 相 等 。 表 达 式 42 == 
'42'@ 求 值 为 False 是 因为 ，Python 认 为 整数 42 与 字符 串 '42' 不 同 。 


为 一 方面 ，<、>、<= 和 >= 操 作 符 仅 用 于 整 型 和 浮 点 型 值 。 





>>> 42 < 100 


True 
>>> 42 > 100 


False 
>>> 42 < 42 


False 
>>> eggCount = 42 


@>>> eggCount <= 42 


True 
>>> myAge = 29 


© >>> myAge >= 10 


True 





PETE AT HY LX Jil 
你 可 能 已 经 注意 到 ，== 操 作 符 《等 于 ) 有 两 个 等 号 ， 而 = 操作 符 《〈 赋 值 ) 只 有 一 个 等 号 。 
































这 两 个 操作 符 很 容易 混淆 。 只 要 记 住 : 
。 == 操 作 符 《〈 等 于 ) 问 两 个 值 是 否 彼此 相同 。 
° = 操作 符 〈 赋 值 ) 将 右边 的 值 放 到 左边 的 变量 中 。 


为 了 记 住 谁 是 谁 ， 请 注意 == 操 作 符 〈 等 于 ) 包含 两 个 字符 ， 就 像 != 操 作 符 ( 不 等 于 ) 包 
含 两 个 字符 一 样 。 
























































你 会 经 常用 比较 操作 符 比 较 一 个 变量 和 另外 某 个 值 。 就 像 在 例子 


eggCount <= 42@ 和 myAge >= 10 四 中 一 样 〈 毕 竞 ， 除 了 在 代码 中 输 
入 'dog' != 'cat 以 外 ， 你 本 来 也 可 以 直接 输入 True) 。 稍 后 ， 在 学 习 控 制 
流 语句 时 ， 你 会 看 到 更 多 的 例子 。 


2.3 布尔 操作 符 
3 个 布尔 操作 符 Cand, orno) 用 于 比较 布尔 值 。 像 比较 操作 符 一 


样 ， 它 们 将 这 些 表达 式 求 值 为 一 个 布尔 值 。 让 我 们 仔细 看 看 这 些 操 作 
人 符 ， 从 and 操 作 符 开始 。 


2.3.1 二 元 布尔 操作 符 


and 和 or 操作 符 总 是 接受 两 个 布尔 值 〈 或 表达 式 ) ， 所 以 它们 被 认 
为 是 “二 元 ”操作 符 。 如 果 两 个 布尔 值 都 为 Trme，and 操 作 符 就 将 表达 式 
求 值 为 True， 人 否则 求 值 为 False。 在 交互 式 环境 中 输入 某 个 使 用 and 的 表 
达 式 ， 看 看 效果 。 





>>> True and True 


True 
>>> True and False 














“ 真 值 表 ”显示 了 布尔 操作 符 的 所 有 可 能 结果 。 表 2-2 是 操作 符 and 的 
真 值 表 。 


表 2-2 and 操 作 符 的 真 值 表 





另 一 方面 ， 只 要 有 一 个 布尔 值 为 真 ，or 操 作 符 就 将 表达 式 求 值 为 
True。 如 果 都 是 False， 上 所 求 值 为 False。 





>>> False or True 


True 
>>> False or False 





可 以 在 or 操作 符 的 真 值 表 中 看 到 每 一 种 可 能 的 结果 ， 如 表 2-3 所 示 。 
表 2-3 or 操作 符 的 真 值 表 


表达 式 求 值 为 





True or True 


False or True 


False or False 





2.3.2 not 操 作 符 


和 and 和 or 不 同 ，not 操 作 符 只 作用 于 一 个 布尔 值 〈 或 表达 式 ) 。not 
操作 符 求 值 为 相反 的 布尔 值 。 


>>> not True 


False 
@ >>> not not not not True 





MAE bia AS EE EG eM Rott VETO, E 
然 在 真正 的 程序 中 并 不 经 常 这 样 做 。 表 2-4 展 示 了 not 的 真 值 表 。 














表 2-4 not 操 作 符 的 真 值 表 














表达 式 求 值 为 





2.4 混合 布尔 和 比较 操作 符 


既然 比较 操作 符 求 值 为 布尔 值 ， 就 可 以 和 布尔 操作 符 一 起 ， 在 表达 
式 中 使 用 。 


回忆 一 下 ，and、or 和 not 操 作 符 称 为 布尔 操作 符 是 因为 ， 它 们 总 是 
操作 于 布尔 值 。 虽 然 像 4< 5 这 样 的 表达 式 不 是 布尔 值 ， 但 可 以 求 值 为 布 
尔 值 。 在 交互 式 环境 中 ， 和 尝试 输入 一 些 使 用 比较 操作 符 的 布尔 表达 式 。 





>>> (4 < 5) and (5 < 6) 


True 
>>> (4 < 5) and (9 < 6) 


False 
>>> (1 == 2) or (2 == 2) 


True 


计算 机 将 先 求 值 左边 的 表达 式 ， 然 后 再 求 值 右边 的 表达 式 。 知 道 两 
个 布尔 值 后 ， 它 又 将 整个 表达 式 再 求 值 为 一 个 布尔 值 。 你 可 以 认为 计算 
机 求 值 (4 < 5) 和 (5 < 6) 的 过 程 ， 如 图 2-2 所 示 。 


(4 < 5) and (5 < 6) 


True and (5 < 6) 


f 


True and True 


' 


TIue 
图 2-2 (4<5) 和 (5 < 6) 求 值 为 True 的 过 程 


也 可 以 在 一 个 表达 式 中 使 用 多 个 布尔 操作 符 ， 与 比较 操作 符 一 起 使 





>>> 2 + 2 == 4 and not 2 + 2 == 5 and 2 * 2 = 2 +4 2 





和 算术 操作 符 一 样 ， 布 尔 操作 符 也 有 操作 顺序 。 在 所 有 算术 和 比较 
人 uae 
BEV ETE 


2.5 控制 流 的 元 素 


控制 流 语句 的 开始 部 分 通常 是 “条 件 ”， 接 下 来 是 一 个 代码 块 ， 称 
为 “ 子 句 ”。 在 开始 学 习 有 具体 的 Python 控制 流 语 名 之 前 ， 我 将 介绍 条 件 和 
代码 块 。 
2.5.1 条 件 

你 前 面 看 到 的 布尔 表达 式 可 以 看 成 是 条 件 ， 它 和 表达 式 是 一 回 
事 。“ 条 件 ” 只 是 在 控制 流 语 句 的 上 下 文中 更 具体 的 名 称 。 条 件 总 是 求 值 
为 一 个 布尔 值 ，True 或 False。 控 制 流 语句 根据 条 件 是 True 还 是 False， 来 
决定 做 什么 。 几 乎 所 有 的 控制 流 语 句 都 使 用 条 件 。 
2.5.2 代码 块 


一 些 代 码 行 可 以 作为 一 组 ， 放 在 “代码 块 ? 中 。 可 以 根据 代码 行 的 缩 
进 ， 知 道 代 码 块 的 开始 和 结束 。 代 码 块 有 3 条 规则 。 


1. 缩 进 增加 时 ， 代 码 块 开始 。 
2. 代码 块 可 以 包含 其 他 代码 块 。 


4 6 
Te 


看 一 些 有 缩 进 的 代码 ， 更 容易 理解 代码 块 。 所 以 让 我 们 在 一 小 段 游 
戏 程序 中 ， 寻 找 代 码 块 ， 如 下 所 示 : 








if name == ‘Mary’: 
print('Hello Mary ) 
if password == 'swordfish': 
print('Access granted. ') 
else: 


print('Wrong password. ') 





第 一 个 代码 块 @ 开 始 于 代码 行 print(Hello Mary)， 并 且 包 含 后 面 所 
有 的 行 。 在 这 个 代码 块 中 有 男 一 个 代码 块 全 ， 它 只 有 一 行 代码 : 





print('Access Granted.'")。 第 三 个 代码 块 全 也 只 有 一 行 : print(Wrong 
password.')。 


2.6 程序 执行 


在 第 1 章 的 hello.py 程 序 中 ，Python 开 始 执行 程序 顶部 的 指令 ， 然 后 
一 条 接 一 条 往 下 执行 。“ 程 序 执行 ”《〈 或 简称 “执行 ">) 这 一 术语 是 指 当 前 
被 执行 的 指令 。 如 宋 将 源 代 码 打印 在 纸 上 ， 在 它 执 行 时 用 手指 指 着 每 一 
行 代码 ， 你 可 以 认为 手指 就 是 程序 执 行 。 

但 是 ， 并 非 所 有 的 程序 都 是 从 上 人 至 下 简单 地 执行 。 如 果 用 手指 奶 踪 


一 个 带 有 控制 流 语 句 的 程序 ， 可 能 会 及 现 手指 会 根据 条 件 跳 过 源 代码 ， 
有 可 能 跳 过 整个 子 句 。 


2.7 控制 流 语 句 


现在 ， 让 我 们 来 看 最 重要 的 控制 流 部 分 : 语句 本 号 。 语 句 代 表 了 在 
图 2-1 的 流程 图 中 看 到 的 委 形 ， 它 们 是 程序 将 做 出 的 实际 决定 。 


2.7.1 证 语句 














最 常见 的 控制 流 语句 是 if 语 句 。if 语 句 的 子 句 (也 就 是 紧 跟 if 语 句 的 
ae ， 将 在 语句 的 条 件 为 True 时 执行 。 如 果 条 件 为 False， 子 句 将 跳 
Wo 

在 英文 中 ， 让 语句 念 起 来 可 能 是 : “如 果 条 件 为 真 ， 执 行 子 句 中 的 代 
码 。” 在 Python 中 ， 让 语句 包含 以 下 部 分 : 

让 关键 字 ; 
和 条件“〈 即 求 值 为 True 或 False 的 表达 式 ) ; 


as; 


。 E RATT oR, SARE USE ORAL AI) 。 


例如 ， 假 定 有 一 些 代 码 ， 检 查 某 人 的 名 字 是 否 为 Alice〈 假 设 此 前 曾 
为 name 赋 值 ) 。 


if name == '‘Alice': 


print('Hi, Alice.') 





所 有 控制 流 语 句 都 以 冒号 结尾 ， 后 面 跟着 一 个 新 的 代码 块 《〈 子 





AJ) 。 语 名 的 直子 句 是 代码 块 ， 包 含 print(Hi, Alice)。 图 2-3 展 示 了 这 上 段 
代码 的 流程 图 。 






name == ‘Alice’ 





print(‘Hi, Alice.) 


图 2-3 if 语 句 的 流程 图 








2.7.2 else 语 句 


诗 子 句 后 面 有 时 候 也 可 以 跟着 else 语 句 。 只 有 证 语句 的 条 件 为 False 
时 ，else 子 句 才 会 执行 。 在 更 语 中 ，else 语 句 读 起 来 可 能 是 : “如 果 条 件 
为 真 ， 执 行 这 段 代码 。 否 则 ， 执 行 那 段 代码 ”。else 语 句 不 包 售 条件 ， 在 
代码 中 ，else 语 句 中 包含 下 面部 分 : 


e else 关 键 字 ; 
ens; 


。 ER Trea, SARE MISE Neleri) . 


回 到 Alice 的 例子 ， 我 们 来 看 看 使 用 else 语 句 的 一 些 代 码 ， 在 名 字 不 
征 Alice 时 ， 提 供 不 一 样 的 问候 。 





if name == 'Alice': 
print('Hi, Alice.') 

else: 
print('Hello, stranger.’ ) 








图 2-4 展 示 了 这 段 代 码 的 流程 图 。 


name == ‘Alice’ B print(‘Hi, Alice.) 





print(‘Hello, stranger’) 


士 


图 2-4 else 语 句 的 流程 图 





2.7.3 elifi= 4 


虽然 只 有 if 或 else 子 句 会 被 执行 ， 但 有 时 候 可 能 你 希望 ，“ 许 多 ”可 能 
的 子 句 中 有 一 个 被 执行 。elif 语 句 是 “否则 如 果 *， 总 是 跟 在 if 或 男 一 条 elif 
语句 后 面 。 它 提供 了 另 一 个 条 件 ， 仅 在 前 面 的 条 件 为 False 时 才 检 查 该 条 
件 。 在 代码 中 ，elif 语 句 总 是 包含 以 下 部 分 ; 





。 elif 关 键 字 ; 

。 条 件 ( 即 求 值 为 True 或 False 的 表达 式 ) ; 

° AS; 

。 在 下 一 行 开始 ， 纵 进 的 代码 块 ( 称 为 dif 子 句 ) 。 





让 我 们 在 名 字 检 查 程 序 中 添加 elif， 看 看 这 个 语句 的 效果 。 


if name == ‘Alice’: 
print('Hi, Alice.') 
elif age < 12: 
print('You are not Alice, kiddo.') 





这 一 次 ， 检 查 此 人 的 年 龄 。 如 果 比 12 岁 小 ， 就 告诉 他 一 些 不 同 的 
东西 。 可 以 在 图 2-5 中 看 到 这 段 代 码 的 流程 图 。 


如 果 age < 12 为 True 并 且 name == 'Alice' 为 False，elif 子 句 就 会 执行 。 
但 是 ， 如 果 两 个 条 件 都 为 False， 那 么 两 个 子 句 都 会 跳 过 。 “不 能 ”保证 至 
少 有 一 个 子 句 会 被 执行 。 如 果 有 一 系列 的 elif 语 句 ， 仅 有 一 条 或 零 条 子 
名 会 被 执行 。 一 旦 一 个 语句 的 条 件 为 True， 剩 下 的 elif 子 名 会 自动 跳 
过 。 例 如 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 保 存 为 


vampire.py。 


if name == 'Alice': 
print('Hi, Alice.') 
elif age < 12: 
print('You are not Alice, kiddo.') 
elif age > 2000: 
print('Unlike you, Alice is not an undead, immortal vampire. ') 


elif age > 100: 
print('You are not Alice, grannie.') 





name == ‘Alice’ AB print(‘Hi, Alice.) 





直 print(You are not Alice, kiddo.) 


士 


这 里 ， 我 添加 了 妃 外 两 条 elif 语 多， 让 名 字 检 查 程 序 根据 age 的 不 同 


图 2-5 elif 语 句 的 流程 图 











答案 而 发 出 问候 。 图 2-6 展 示 了 这 段 代 码 的 流程 图 。 


但 是 ，elif 语 句 的 次 序 确实 重要 。 让 我 们 重新 排序 ， 引 入 一 个 缺 
陷 。 回 忆 一 下 ， 一 旦 找到 一 个 True 条 件 ， 剩 余 的 子 句 就 会 自动 跳 过 。 所 
以 如 果 交 换 vampire.py 中 的 一 些 子 句 ， 就 会 过 到 问题 。 像 下 和 面 这 样 改变 
代码 ， 将 它 保 存 为 vampire2.py。 


if name == ‘Alice’: 
print('Hi, Alice.') 
elif age < 12: 
print('You are not Alice, kiddo.') 
@ elif age > 100: 
print('You are not Alice, grannie.') 
elif age > 2000: 


print('Unlike you, Alice is not an undead, immortal vampire. ') 





name == Alice' B 





假 


假 


age > 2000 真 


假 


age> 100 真 


print(Hi, Alice’) 


print(‘You are not Alice, kiddo’) 


print(‘Unlike you, Alice is not 
an undead, immortal vampire!) 


print(‘You are not Alice, grannie.) 











图 2-6 vampire.py 程 序 中 多 重 elif 语 句 的 流程 图 


假设 在 这 段 代 码 执行 之 前 ，age 变 量 的 值 是 3000。 你 可 能 预计 代码 
会 打印 出 字符 串 'Unlike you, Alice is not an undead, immortal vampire.'. 
但 是 ， 因 为 age > 100 条 件 为 真 〈 毕 竟 3000 大 于 100) @, 45 'You are 
not Alice, grannie.' 被 打印 出 来 ， 剩 下 的 语句 自动 跳 过 。 别 筷 了 了， 最 多 只 
有 一 个 子 句 会 执行 ， 对 于 elif 语 句 ， 次 序 是 很 重要 的 。 


图 2-7 展 示 了 前 面 代码 的 流程 图 。 请 注意 ， 葵 形 age > 100 和 age > 
2000 交 换 了 位 置 。 














name == ‘Alice’ 


假 


age > 2000 





<>- 


、 7 


/N 








图 2-7 vampire2.py 程 序 的 流程 图 。 打 又 的 路 径 在 逻辑 上 永远 不 会 发 生 
因为 如 果 age 大 于 2000， 它 就 已 经 大 于 100 了 





你 可 以 选择 在 最 后 的 elif 语 句 后 面 加 上 else 语 句 。 在 这 种 情况 下 ， 保 
证 至 少 一 个 子 句 〈 且 只 有 一 个 ) 会 执行 。 如 果 每 个 让 和 elif 语 句 中 的 条 件 


都 为 False， 就 执行 else 子 句 。 例 如 ， 让 我 们 使 用 过 、elif 和 else 子 句 重 新 编 
写 Alicee 程 序 。 





if name == 'Alice': 
print('Hi, Alice.') 
elif age < 12: 


print('You are not Alice, kiddo.') 
else: 


print('You are neither Alice nor a little kid.') 








图 2-8 展 示 了 这 上 段 新 代 码 的 流程 图 ， 我 们 将 它 保 存 为 littleKid.py。 


name == ‘Alice’ 真 print(‘Hi, Alice.) 





假 


真 print(‘You are not Alice, kiddo.) 


假 


print('You are neither Alice 
nor a little kid.) 


Cam) 


图 2-8 前 面 littleKid.py 程 序 的 流程 








图 





在 英语 中 ， 这 类 控制 流 结构 会 使 得 : “如果 第 一 个 条 件 为 真 ， 做 这 
个 。 否 则 ， 如 宋 第 二 个 条 件 为 真 ， 做 那个 。 否 则 ， 做 另外 的 事 。? 如 果 


吾 句 ， 要 记 住 这 些 次 序 规则 ， 避 免 图 2-7 中 那样 的 缺 
。 首 先 ， 总 是 只 有 一 个 诗 语句 。 所 有 需要 的 elif 语 句 都 应 该 跟 在 让 语句 
2 其 次 ， 如 果 和 希望 确保 至 少 一 条 子 句 被 执行 ， 在 最 后 加 上 else 语 


2.7.4 while 循 环 语句 


利用 while 语 句 ， 可 以 让 一 个 代码 块 一 裔 的 执行 。 只 要 while 
语句 的 条 件 为 True，while 子 句 中 的 代码 在 代码 ch, while 语 
句 总 是 包含 下 面 几 部 分 : 


关键 字 ; 
条 。 ( 求 值 为 True 或 False 的 表达 式 ) ; 


从 新 行 开始 ， 缩 进 的 代码 块 〈 称 为 while 子 句 ) 。 


可 以 看 到 ，while 语 名 看 起 来 和 证 语句 类 似 。 不 同 之 处 是 它们 的 行 
为 。if 子 句 结束 时 ， 程 序 继续 执行 ff 语句 之 后 的 语句 。 但 在 while 子 句 结 
束 时 ， 程 序 执行 跳 回 到 while 语 句 开 始 处 。while 子 句 常 被 称 为 “while 循 
环 ”， 或 就 是 “循环 ”。 


让 我 们 来 看 一 个 让 语句 和 一 个 while 循 环 。 它 们 使 用 同样 的 条 件 ， 并 
基于 该 条 件 做 出 同样 的 动作 。 下 面 是 if 语 句 的 代码 : 














spam = 0 

if spam < 5: 
print('Hello, world.') 
Spam = spam + 1 





下 面 是 while 语 句 的 代码 : 





Spam = 0 

while spam < 5: 
print('Hello, world.') 
Spam = spam + 1 


这 些 语 名 类似， 让 和 while 都 检查 spam 的 值 ， 如 果 它 小 于 5 ， 就 打印 
一 条 消息 。 但 如 果 运 行 这 两 段 代 码 ， 它 们 各 目的 表现 非 背 不 同 。 对 于 证 
语句 ， 输 出 就 是 "Hello, world."。 但 对 于 while 语 句 ， 输 出 是 "Hello， 
ea 看 一 看 这 两 段 代 码 的 流程 图 ， 图 2-9 和 2-10， 找 一 找 
原因 。 





“Mt 






print(‘Hello, world.) 









图 2-9 if 语 句 代码 的 流程 图 











1/ 








print(‘Hello, world.) 






图 2-10 while 语 名 代码 的 流程 图 


带 有 让 语句 的 代码 检查 条 件 ， 如 果 条 件 为 True， 就 打印 一 次 "Hello， 
world."。 带 有 while 循 环 的 代码 则 不 同 ， 会 打印 5 次 。 打 印 5 次 后 停 下 来 
是 因为 ， 在 每 次 循环 迭代 未 尾 ，spam 中 的 整数 都 增加 1。 这 意味 着 循环 
将 执行 5 次 ， 然 后 spam < 5 变 为 False。 


在 while 循 环 中 ， 条 件 总 是 在 每 次 “迭代 "开始 时 检查 《也 融 是 每 次 循 
环 执行 时 ) o WRR True, TOMAAT, Ama HURAR 
当 条 件 第 一 次 为 False 时 ，while 子 句 就 跳 过 。 


2.7.5 恼人 的 循环 


这 里 有 一 个 小 例子 ， 它 不 停 地 要 求 你 输入 “your name” Ct 21% NF 
符 串 ， 而 不 是 你 的 名 字 ) 。 选 择 FilePNew Window， 打 开 一 个 新 的 文件 
编辑 器 窗口 ， 输 入 以 下 代码 ， 将 文件 保存 为 yourName.py: 


@ name = '' 

ewhile name != ‘your name’: 
print('Please type your name. ') 

© name = input() 

@ print('Thank you!') 





首先 ， 程 序 将 变量 name 征 设置 为 一 个 空 字符 串 。 这 样 ， 条 件 name 
l= 'your name' 就 会 求 值 为 True， 程 序 就 会 进入 while 循 环 的 子 句 仿 。 


这 个 子 句 内 的 代码 要 求 用 户 输入 他 们 的 名 字 ， 然 后 赋 给 name 变 量 
合 。 因 为 这 是 语句 块 的 最 后 一 行 ， 所 以 执行 就 回 到 while 循 环 的 开始 ， 
重新 对 条 件 求 值 。 如 果 name 中 的 值 “ 不 等 于 ”字符 串 'your name'"， 那 么 条 
件 束 为 True， 执 行将 再 次 进入 while 子 句 。 


但 如 果 用 户 输入 your name，while 循 环 的 条 件 就 变 成 'your name' != 
'your name’, 它 求 值 为 False。 条 件 现 在 是 False， 程 序 就 不 会 再 次 进入 
while 循 环 子 句 ， 而 是 跳 过 它 ， 继 续 执 行程 序 后 面 的 部 分 人 @。 图 2-11 展 示 
了 yourName.py 程 序 的 流程 图 。 





开始 









name! = your name 


print(‘Thank youl’) 





print( Please type your name.) 


图 2-11 yourName.py 程 序 的 流程 





现在 ， 让 我 们 来 看 看 yourName.py 程 序 的 效果 。 按 F5 键 运行 它 ， 输 
几 次 your name 之 外 的 东西 ， 然 后 再 提供 程序 想 要 的 输入 。 


Please type your name. 


Please type your name . 
Albert 


Please type your name. 
HHOHD* (^R!!! 


Please type your name. 
your name 


Thank you! 





如 有 果 永 不 输入 your name， 那 么 循环 的 条 件 就 永远 为 False， 程 序 将 
永远 问 下 去 。 这 里 ，inputO 调 用 让 用 户 输入 正确 的 字符 串 ， 以 便 让 程序 





继续 。 在 其 他 程序 ， 条 件 可 能 永远 没有 实际 变化 ， 这 可 能 会 出 问题 。 让 
我 们 来 看 看 如 何 跳出 循环 。 


2.7.6 break 语 句 
有 一 个 捷径 ， 让 执行 提前 跳出 while 循 环 子 句 。 如 果 执 行 遇 到 break 


语句 ， 束 会 马上 退出 while 循 环 子 句 。 在 代码 中 ，break 语 句 仪 包含 break 
REF 


非常 简单 ， 对 吗 ? 这 里 有 一 个 程序 ， 和 前 面 的 程序 做 一 样 的 事情 ， 
但 使 用 了 break 语 句 来 跳出 循环 。 输 入 以 下 代码 ， 将 文件 保存 为 
yourName2.py: 


@ while True: 
print('Please type your name. ') 
name = input() 
if name == ‘your name': 
break 
print('Thank you!" ) 


© 
© 
(4) 
© 





第 一 行 @ 创 建 了 一 个 “无 限 循环 ”"， 它 是 一 个 条 件 总 是 为 True 的 while 
循环 。 (表达 式 True 总 是 求 值 为 Trne。) 程序 执行 将 总 是 进入 循环 ， 只 
有 过 到 break 语 句 执行 时 才 会 退出 (“永远 不 ”退出 的 无 限 循环 是 一 个 常见 
的 编程 缺陷 ) 。 


像 以 前 一 样 ， 程 序 要 求 用 户 输入 your name@。 但 是 现在 ， 虽 然 执 
行 仍然 在 while 循 环 内 ， 但 有 一 个 让 语句 会 被 执行 @， 检 查 name 是 否 等 于 
your name。 如 果 条 件 为 Trrue，break 语 句 就 会 运行 @@， 执 行 就 会 跳出 循 
环 ， 转 到 print(Thank you!) @。 否 则 ， 包 含 break 语 句 的 站 语句 子 句 就 会 
跳 过 ， 让 执行 到 达 while 循 环 的 末尾 。 此 时 ， 程 序 执行 跳 回 到 while 语 句 
的 开始 @， 重 新 检查 条 件 。 因 为 条 件 是 Trme， 所 以 执行 进入 循环 ， 再 次 
要 求 用 户 输入 your name。 这 个 程序 的 流程 图 参见 图 2-12。 


运行 yourName2.py， 输 入 你 为 yourName.py 程 序 输入 的 同样 文本 。 
重 写 的 程序 应 该 和 原来 的 程序 反应 相同 。 









name == your name’ 


print(‘Thank you!’ 


图 2-12 带 有 无 限 循 环 的 程序 的 流程 图 。 注 意 打 又 路 径 在 逻辑 上 
永远 不 会 发 生 ， 因 为 循环 条 件 总 是 为 True 











2.7.7 continue 语 人 句 


像 break 语 句 一 样 ，continue 语 句 用 于 循环 内 部 。 如 果 程 序 执行 遇 到 


continue 语 句 ， 就 会 马上 跳 回 到 循环 开始 处 ， 重 新 对 循环 条 件 求 值 〈( 这 
也 是 执行 到 达 循 环 末 尾 时 发 生 的 事情 〉。 


让 我 们 用 continue 写 一 个 程序 ， 要 求 输入 名 字 和 口令 。 在 一 个 新 的 
文件 编辑 窗口 中 输入 以 下 代码 ， 将 程序 保存 为 Swordfish.py。 





while True: 
print('Who are you?" ) 
name = input() 
if name != 'Joe': 
continue 
print('Hello, Joe. What is the password? (It is a fish.)') 
password = input() 


if password == 'swordfish': 
break 
© print('Access granted. ') 





如 果 用 户 输 入 的 名 字 不 是 Joe@， continue 语 句 仿 将 导致 程序 执行 跳 
回 到 循环 开始 处 。 再 次 对 条 件 求 值 时 ， 执行 总 是 进入 循环 ， ALAA TE a 
是 True。 如 果 执 行 通过 了 if 语 句 ， 用 户 就 被 要 求 输入 口令 人 @。 如 果 输 入 
的 口令 是 swordfish，break 语 句 运 行人 @， 执 行 跳 出 while 人 循环 ， 打 印 
Access granted 人 @。 否 则 ， 执 行 继 续 到 while 循 环 的 末尾 ， 又 跳 回 到 循环 
的 开始 。 这 个 程序 的 流程 图 参见 图 2-13。 
如 果 你 运行 一 个 有 缺陷 的 程序 ， 导 致 陷 在 一 个 无 限 循 环 中 ， 那 么 请 按 Ctrl-C。 这 将 向 程序 发 送 


KeyboardInterrupt 错 误 ， 导 致 它 立即 停止 。 试 一 下 ， 在 文件 编辑 器 中 创建 一 个 简单 的 无 限 循 
环 ， 将 它 保存 为 infiniteloop.py。 

































































while True: 
print('Hello world!') 














如 果 运 行 这 个 程序 ， 它 将 永远 在 屏幕 上 打印 Hello world! 因为 while 语 句 的 条 件 总 是 True。 



































在 IDLE 的 交互 式 环境 窗口 中 ， 只 有 两 种 办 法 停止 这 个 程序 : 按 下 Ctrl-C 或 从 沫 单 中 选择 
ShellPRestart Shell。 如 果 你 希望 蕊 上 停止 程序 ， 即 使 它 不 是 陷 在 一 个 无 限 循环 中 ，Ctrl-C 也 是 
很 方便 的 。 





























运行 这 个 程序 ， 提 供 一 些 输入 。 只 有 你 声称 是 Joe， 它 才 会 要 求 输 
入 口令 。 一 旦 输入 了 正确 的 口令 ， 它 就 会 退出 。 


Who are you? 
I'm fine, thanks. Who are you? 


Who are you? 
Joe 


Hello, Joe. What is the password? (It is a fish.) 
Mary 


Who are you? 
Joe 


Hello, Joe. What is the password? (It is a fish.) 
swordfish 


Access granted. 









name != Joe' 


password == ‘swordfish’ 


print(Access Granted.) 











图 2-13 swordfish.py 的 流程 图 。 打 又 的 路 径 在 逻辑 上 永远 不 会 执行 ， 因 为 循环 条 件 总 是 True 








2.7.8 for 循 环 和 range0 函 数 


在 条 件 为 True 时 ，while 循 环 就 会 继续 循环 〈 这 是 它 的 名 称 的 由 
来 ) 。 但 如 果 你 想 让 一 个 代码 块 执行 固定 次 数 ， 该 怎么 办 ? 可 以 通过 for 
循环 语句 和 range() 函 数 来 实现 。 
“类 真 ? 和 “类 假 ” 的 值 


他 数据 类 型 中 的 某 些 值 ， 条 件 认为 它们 等 价 于 True 和 False。 在 用 于 条 件 时 ，0、0.0 和 ''〔 空 
字符 串 ) 被 认为 是 False， 其 他 值 被 认为 是 True。 例 如 ， 请 看 下 面 的 程序 : 



























































name = '' 


while not name:@ 

print('Enter your name:') 

name = input() 

print('How many guests will you have?') 
numOfGuests = int(input()) 


if numOfGuests:@ 
print('Be sure to have enough room for all your guests.')e 
print('Done' ) 




















如 果 用 户 输入 一 个 空 字 符 串 给 name， 那么 while 语 句 的 条 件 就 会 是 True Q, 程序 继续 要 求 
输入 名 字 。 如 果 numOfGuests 不 是 0 信 ， 那 么 条 件 就 被 认为 是 Trne， 程 序 就 会 为 用 户 打 印 一 条 
提醒 信息 合 。 


可 以 用 not name !='' 代 替 not name， 用 numOfGuests != 0 代 蔡 numOfGuests， 但 使 用 类 真 和 
类 假 的 值 会 让 代码 更 容易 阅读 。 


在 代码 中 ，for 语 句 看 起 来 像 for i in range(5): 这 样 ， 总 是 包含 以 下 部 
Ly, 


TS: 







































































for 关 键 字 :; 

in 关 键 字 ; 

调用 range0 方 法 ， 最 多 传 入 3 个 参数 ; 
= 7S5; 


从 下 一 行 开 始 ， 缩 退 的 代码 块 《〈 称 为 for 子 句 ) 。 
让 我 们 创建 一 个 新 的 程序 ， 名 为 fiveTimes.py， 看 看 for 循 环 的 效 


print('My name is') 
for i in range(5): 
print('Jimmy Five Times (' + str(i) + ')') 





for 循 环 子 句 中 的 代码 运行 了 5 次 。 第 一 次 运行 时 ， 变 量 i 被 设 为 0。 
子 句 中 的 printO 调 用 将 打印 出 Jimmy Five Times (0)。Python 完 成 for 循 环 
子 句 内 所 有 代码 的 一 次 迭代 之 后 ， 执 行将 回 到 循环 的 顶部 ，for 语 句 让 i 
增加 1。 这 就 是 为 什么 range(5) 导 致 子 句 的 5 次 迭代 ，i 分 别 被 设置 为 0、 
1、2、3、4。 变 量 i 将 递增 到 (但 不 包括 ) 传递 给 range() 函 数 的 整数 。 图 
2-14 展 示 了 fiveTimes.py 程 序 的 流程 图 。 






print(‘My name is’) 





print(Jimmy Five Times ( + str(i) + ')’) 





for i in range (5) 





循环 结束 





图 2-14 fiveTimes.py 的 流程 图 











运行 这 个 程序 时 ， 它 将 打印 5 次 Jimmy Five Times 和 i 的 值 ， 然 后 离 
开 for 循 环 。 


My name is 

Jimmy Five Times 
Jimmy Five Times 
Jimmy Five Times 
Jimmy Five Times 


Jimmy Five Times 





也 可 以 在 循环 中 使 用 continue 语 句 。continue 语 句 将 让 for 循 环 变 量 继 
续 下 一 个 值 ， 束 像 程 序 执行 已 经 到 达 循 环 的 末尾 并 返回 开始 一 样 。 实 际 
上 ， 只 能 在 while 和 for 循 环 内 部 使 用 continue 和 break 语 句 。 如 果 试 图 在 别 
处 使 用 这 些 语句 ，Python 将 报错 。 


作为 for 循 环 的 另 一 个 例子 ， 请 考虑 数学 家 高 斯 的 故事 。 当 高 斯 还 是 
一 个 小 孩 时 ， 老 师 想 给 全 班 同 学 布置 很 多 计算 作业 。 老 师 让 他 们 从 0 加 
到 100。 高 斯 想到 了 一 个 聪明 办 法 ， 在 几 秒 钟 内 算出 了 答案 ， 但 你 可 以 
用 for 循 环 写 一 个 Python 程序 ， 蔡 你 完成 计算 。 





@ total = 6 

efor num in range(101): 

© total = total + num 
© print(total) 





结果 应 该 是 5050。 程 序 刚 开始 时 ，total 变 量 被 设 为 0。 然 后 for 循 环 
执行 100 次 total = total + num。 当 循环 完成 100 次 迭代 时 ，0 到 100 的 每 个 
整数 都 加 给 J 了 total。 这 时 ，total 被 打印 到 屏幕 上 。 即 使 在 最 慢 的 计算 机 
上 ， 这 个 程序 也 不 用 1 秒 钟 就 能 完成 计算 。 


(小 高 斯 想到 ， 有 50 对 数 加 起 来 是 100: 1+ 99, 2 + 98, 3 + 97...... B 
到 49 + 51。 因 为 50 x 100 是 5000， 再 加 上 中 间 的 50， 所 以 0 到 100 的 所 有 
数 之 和 是 5050。 聪 明 的 孩子 ! ) 


2.7.9 等 价 的 while 循 环 


实际 上 可 以 用 while 循 环 来 做 和 for 循 环 同 样 的 事 ，for 循 环 只 是 更 简 
洁 。 让 我 们 用 与 for 循 环 等 价 的 while 循 环 ， 重 写 fiveTimes.py。 


print('My name is') 
i= 6 
while i < 5: 
print('Jimmy Five Times (' + str(i) + ')') 


i=i+1 





运行 这 个 程序 ， 输 出 应 该 和 使 用 for 循 环 的 fiveTimes.py 程 序 一 样 。 
2.7.10 range(0 的 开始 、 停 止 和 步 长 参数 
某 些 函数 可 以 用 多 个 参数 调用 ， 参 数 之 间 用 逗号 分 开 ，range0) 就 是 


其 中 之 一 。 这 让 你 能 够 改变 传递 给 range0 的 整数 ， 实 现 各 种 整数 序列 ， 
包括 从 0 以 外 的 值 开 始 。 


for i in range(12, 16): 
print(i) 











第 一 个 参数 是 for 循 环 变量 开始 的 值 ， 第 二 个 参数 是 上 限 ， 但 不 包含 
它 ， 也 束 是 循环 停止 的 数字 。 


re 


range() 函 数 也 可 以 有 第 三 个 参数 。 前 两 个 参数 分 别 是 起 始 值 和 终止 
值 ， 第 三 个 参数 是 “ 步 长 ”。 步 长 是 每 次 欠 代 后 循环 变量 增加 的 值 。 





for i in range(0, 10, 2): 
print(i) 





所 以 调用 range(0, 10, 2) 将 从 0 数 到 8， 间 隔 为 2。 


oo 和 上 NO 


在 为 for 循 环 生成 序列 数据 方面 ，range0 函 数 很 灵活 。 举 例 来 说 ， 甚 
至 可 以 用 负数 作为 步 长 参数 ， 让 循环 计数 逐渐 减少 ， 而 不 是 增加 。 


for i in range(5, -1, -1): 
print(i) 





运行 一 个 for 循 环 ， 用 range(5, -1, -TD) 来 打印 i， 结 果 将 从 5 降 至 0。 


上 u 


2.8 导入 模块 


Python 程序 可 以 调用 一 组 基本 的 函数 ， 这 称 为 “内 建 函 数 ”， 包 括 你 
见 到 过 的 print()、inputO 和 len0) 函 数 。Python 也 包括 一 组 模块 ， 称 为 “ 标 
准 库 ?。 每 个 模块 都 是 一 个 Python 程序 ， 包 含 一 组 相关 的 函数 ， 可 以 舰 
入 你 的 程序 之 中 。 eee randomt i 
有 随机 数 相关 的 函数 ， 


在 开始 使 用 一 个 模块 中 的 函数 之 前 ， 必 须 用 import 语 句 导 入 该 模 
块 。 在 代码 中 ，import 语 句 包 含 以 下 部 分 : 
e import X +; 
。 模块 的 名 称 ; 
。 可 选 的 更 多 模块 名 称 ， 之 间 用 逗号 隔 开 。 


在 导入 一 个 模块 后 ， 就 可 以 使 用 该 模块 中 所 有 很 酷 的 函数 。 让 我 们 
试 一 试 random 模 块 ， 它 让 我 们 能 使 用 random.ranint() 函 数 。 


在 文件 编辑 器 中 输入 以 下 代码 ， 保 存 为 printRandom.py: 











import random 
for i in range(5): 
print(random.randint(1, 10)) 





如 琳 运 行 这 个 程序 ， 输 出 看 起 来 可 能 像 这 样 : 


EF 


random.randintO 函 数 调 用 求 值 为 传递 给 它 的 两 个 整数 之 间 的 一 个 随 
机 整数 。 因 为 randintO 属 于 random 模 块 ， 必 须 在 函数 名 称 之 前 先 加 上 
random.， 告 诉 python 在 random 模 块 中 寻找 这 个 函数 。 


下 面 是 import 语 句 的 例子 ， 它 导入 了 4 个 不 同 的 模块 : 








import random, sys, os, math 





现在 我 们 可 以 使 用 这 4 个 模块 中 的 所 有 函数 。 本 书后 面 我 们 将 学 习 
更 多 的 相关 内 容 。 


from import 语 句 


import 语 句 的 另 一 种 形式 包括 from 关 键 字 ， 之 后 是 模块 名 称 ， 
import 关 键 字 和 一 个 星 号 ， 例 如 from random import *。 


使 用 这 种 形式 的 import 语 句 ， 调 用 random 模 块 中 的 函数 时 不 需要 
random. 前 级 。 但 是 ， 使 用 完整 的 名 称 会 让 代码 更 可 读 ， 所 以 最 好 是 使 
用 普通 形式 的 import 语 句 。 


2.9 用 sys.exit() 提 前 结束 程序 


要 介绍 的 最 后 一 个 控制 流 概 念 ， 是 如 何 终 止 程序 。 当 程序 执行 到 指 
令 有 的确 部 时 ， 总 是 会 终止 。 但 是 ， 通 过 调用 sys.exit() 函 数 ， 可 以 让 程序 
终止 或 退出 。 因 为 这 个 函数 在 sys 模 块 中 ， 所 以 必须 先导 入 sys， 才 能 使 
Es 








打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 。 保 存 为 
exitExample.py: 


import sys 


while True: 
print('Type exit to exit.') 
response = input() 
if response == ‘exit': 
sys.exit() 


print('You typed ' + response + '.') 








在 IDLE 中 运行 这 个 程序 。 该 程序 有 一 个 无 限 循环 ， 里 面 没有 break 
语句 。 结 束 该 程序 的 唯一 方式 ， 束 是 用 户 输 入 exit， 导 致 sys.exit() 被 调 
用 。 如 果 response 等 于 exit， 程 序 就 会 中 止 。 因 为 response 变 量 由 input() 
函数 赋值 ， 所 以 用 户 必 须 输入 exit， 才 能 停止 该 程序 。 


2.10 小 结 


通过 使 用 求 值 为 True 或 False 的 表达 式 〈 也 称 为 条 件 ) ， 你 可 以 编写 
程序 来 决定 哪些 代码 执行 ， 哪 些 代 码 跳 过 。 可 以 在 循环 中 一 裔 叉 一 人 裔 地 
执行 代码 ， 只 要 某 个 条 件 求 值 为 True。 如 果 需 要 跳出 循环 或 回 到 开始 
处 ，break 和 continue 语 名 很 有 用 。 


这 些 控制 流 语句 让 你 写 出 非常 聪明 的 程序 。 还 有 为 一 种 类 型 的 控制 
流 ， 你 可 以 通过 编写 目 己 的 函数 来 实现 。 这 是 下 一 章 的 主题 。 





2.11 习题 
1. 布尔 数据 类 型 的 两 个 值 是 什么 ? 如何 拼写 ? 
2.，3 个 布尔 操作 符 是 什么 ? 


3. 写 出 每 个 布尔 操作 符 的 真 值 表 (也 束 是 操作 数 的 每 种 可 能 组 
合 ， 以 及 操作 的 结果 ) 。 


4. 以 下 表达 式 求 值 的 结果 是 什么 ? 


(5 > 4) and (3 == 5) 

not (5 > 4) 

(5 > 4) or (3 == 5) 

not ((5 > 4) or (3 == 5)) 

(True and True) and (True == False) 


(not False) or (not True) 





5. 6 个 比较 操作 符 是 什么 ? 

6. 等 于 操作 符 和 赋值 操作 符 的 区 别 是 什么 ? 
7. 解释 什么 是 条 件 ， 可 以 在 哪里 使 用 条 件 。 
8. 识别 这 段 代码 中 的 3 个 语句 块 : 


Spam = 0 
if spam == 10: 
print( eggs ') 
if spam > 5: 
print('bacon') 
else: 


print('ham' ) 
print('spam' ) 
print('spam' ) 





9. 编写 代码 ， 如 果 变 量 spam 中 存放 1， 束 打印 Hello， 如 果 变 量 中 
Fe 72, WEF ENHowdy, WRAP PRAIA, wet] EGreetings! 


10. 如 果 程 序 陷 在 一 个 无 限 循环 中 ， 你 可 以 按 什 么 键 ? 


11. break 和 continue 之 间 的 区 别 是 什么 ? 


12. 在 for 循 环 中 ，range(10)、range(0, 10) 和 range(0, 10, 1) 之 间 的 区 
别 是 什么 ? 


13. 编写 一 小 段 程序 ， 利 用 for 循 环 ， 打 印 出 从 1 到 10 的 数字 。 然 后 
利用 while 循 环 ， 编 写 一 个 等 价 的 程序 ， 打 印 出 从 1 到 10 的 数字 。 


14. 如 果 在 名 为 spam 的 模块 中 ， 有 一 个 名 为 bacon() 的 函数 ， 那 么 在 
导入 spam 模 块 后 ， 如 何 调 用 它 ? 


附加 题 ， 在 因特网 上 查找 roundO 和 abs() 函 数 ， 和 弄 清 楚 它 们 的 作用 。 
在 交互 式 环境 中 尝试 使 用 它们 。 


St AŽ 
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个 程序 内 的 小 程序 。 


为 了 更 好 地 理解 函数 的 工作 原理 ， 让 我 们 来 创建 一 个 函数 。 在 文件 
编辑 器 中 输入 下 面 的 程序 ， 保 存 为 helloFunc.py: 


@ def hello(): 

@ print( ‘Howdy! ) 
print('Howdy!!!') 
print('Hello there.') 


© hello() 
hello() 
hello() 





第 一 行 是 def 语 句 @Q@Q， 它 定义 了 一 个 名 为 hello0 的 函数 。def 语 句 之 
后 的 代码 块 是 函数 体 @。 这 上段 代码 在 函数 调用 时 执行 ， 而 不 是 在 函数 第 
一 次 定义 时 执行 。 


函数 之 后 的 hello0 语 句 行 是 函数 调用 合 。 在 代码 中 ， 函 数 调用 就 是 
函数 名 后 跟 上 括号 ， 也 许 在 括号 之 间 有 一 些 参数 。 如 果 程 序 执行 遇 到 这 
些 调用 ， 就 会 跳 到 函数 的 第 一 行 ， 开 始 执行 那里 的 代码 。 如 果 执 行 到 达 
函数 的 末尾 ， 就 回 到 调用 函数 的 那 行 ， 继 续 像 以 前 一 样 向 下 执行 代码 。 


因为 这 个 程序 调用 了 3 次 hello0 函 数 ， 所 以 函数 中 的 代码 就 执行 了 3 
次 。 在 运行 这 个 程序 时 ， 输 出 看 起 来 像 这 样 : 











Howdy ! 
Howdy!!! 
Hello there. 
Howdy ! 


Hello there. 
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ie 你 可 能 每 次 都 需要 复制 粘贴 这 些 代 码 ， 程 序 看 起 来 可 能 会 
这 样 : 


Howdy! ' ) 
"Howdy!!!" ) 
"Hello there.') 
"Howdy! ' ) 
"Howdy!!!" ) 
"Hello there.') 


"Howdy! ' ) 
"Howdy!!!" ) 
Hello there.') 





一 般 来 说 ， 我 们 总 是 希望 避免 复制 代码 ， 因 为 如 果 一 旦 决定 要 更 新 
Hie 《比如 资 ， 发 现 了 一 个 缺陷 要 修复 ) ， 就 必须 记 住 要 修改 所 有 复制 
I 代码 。 


随 着 你 获得 更 多 的 编程 经 验 ， 常 第 会 友 现 自己 在 为 代码 “消除 重 
复 ”?”， 即 去 除 一 些 重复 或 复制 的 代码 。 消 除 重复 能 够 使 程序 更 短 、 更 易 
读 、 更 容易 更 新 。 


3.1 def 语 句 和 参数 


如 果 调 用 print() 或 len() 函 数 ， 你 会 传 入 一 些 值 ， 放 在 括 写 之 间 ， 在 
这 里 称 为 “参数 "。 也 可 以 自己 定义 接收 参数 的 函数 。 在 文件 编辑 器 中 输 
入 这 个 例子 ， 将 它 保存 为 helloFunc2.py: 








@ def hello(name): 
@ print('Hello ' + name) 


© hello('Alice') 
hello('Bob' ) 





如 采 运 行 这 个 程序 ， 输 出 看 起 来 像 这 样 : 


Hello Alice 
Hello Bob 
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元 ”是 一 个 变量 ， 当 函数 被 调用 时 ， 参 数 束 存放 在 其 中 。hello() 函 数 第 一 
次 被 调用 时 ， 使 用 的 参数 是 'Alice'@。 程 序 执行 进入 该 函数 ， 变 量 name 
自动 设 为 'Alice'"， 就 是 被 print() 语 句 打 印 出 的 内 容 信 。 


天 于 变 元 有 一 件 特殊 的 事情 值得 注意 : 保存 在 变 元 中 的 值 ， 在 函数 
返回 后 就 丢失 了 。 例 如 前 面 的 程序 ， 如 果 你 在 hello(CBob) 之 后 添加 
print(name)， 程 序 会 报 NameError， 因 为 没有 名 为 name 的 变量 。 在 函数 
调用 hello(Bob) 返 回 后 ， 这 个 变量 被 销毁 了 ， 上 所 以 print(name) 会 引用 一 
个 不 存在 的 变量 name。 


这 类 似 于 程序 结束 时 ， 程 序 中 的 变量 会 丢弃 。 在 本 间 稍 后 ， 当 我 们 
探讨 函数 的 局 部 作用 域 时 ， 我 会 进一步 分 析 为 什么 会 这 样 。 
3.2 返回 值 和 return 语 句 

如 果 调 用 lenO0 函 数 ， 并 癌 它 传 入 像 'Hello' 这 样 的 参数 ， 函 数 调 用 就 
求 值 为 整数 5。 这 是 传 入 的 字符 串 的 长 度 。 一 般 来 说 ， 函 数 调 用 求 值 的 
结果 ， 称 为 函数 的 “返回 值 ”。 

用 def 语 句 创建 函数 时 ， 可 以 用 return 语 句 指 定 应 该 返回 什么 值 。 














return 语 句 包 含 以 下 部 分 : 


e retum 关 键 字 ; 
© 函数 应 该 返回 的 值 或 表达 式 。 


如 果 在 return 语 句 中 使 用 了 表达 式 ， 返 回 值 就 是 该 表达 式 求 值 的 结 
果 。 例 如 ， 下 面 的 程序 定义 了 一 个 函数 ， 它 根据 传 入 的 数字 参数 ， 返 回 
一 个 不 同 的 字符 串 。 在 文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 
magic8Ball.py: 


@ import random 


@ def getAnswer(answerNumber ): 
© if answerNumber == 
return 'It is certain' 
elif answerNumber == 2: 
return 'It is decidedly so' 
elif answerNumber == 3: 
return 'Yes' 
elif answerNumber == 4: 
return 'Reply hazy try again' 
elif answerNumber == 5: 
return 'Ask again later' 
elif answerNumber == 
return 'Concentrate and ask again' 
elif answerNumber == 
return 'My reply is no' 
elif answerNumber == 
return 'Outlook not so good' 
elif answerNumber == 
return 'Very doubtful' 


© r = random.randint(1, 9) 
© fortune = getAnswer(r) 
© print(fortune) 





在 这 个 程序 开始 时 ，Python 首 先导 入 random 模 块 @。 人 然后 
getAnswer() 函 数 被 定义 人 @。 因 为 函数 是 被 定义 〔 而 不 是 被 调用 ) ， 所 以 
执行 会 跳 过 其 中 的 代码 。 接 下 来 ，random.randint() 函 数 被 调用 ， 带 两 个 


参数 ，1 和 9 人 @。 它 求 值 为 1L 和 9 之 间 的 一 个 随机 整数 (包括 1 和 9〉 ， 这 个 
值 被 存在 一 个 名 为 ?的 变量 中 。 


getAnswer() 函 数 被 调用 ， 以 r 作 为 参数 @。 程 序 执行 转移 到 
getAnswer() 函 数 的 顶部 人 @，r 的 值 被 保存 到 名 为 answerNumber 的 变 元 
中 。 然 后 ， 根 据 answerNumber 中 的 值 ， 也 数 返回 许多 可 能 字符 串 中 的 一 
个 。 程 序 执行 返回 到 程序 底部 的 代码 行 ， 即 原来 调用 getAnswer() 的 地 方 
加 .返回 的 字符 串 被 赋 给 一 个 名 为 fortune 变 量 ， 然 后 它 又 被 传递 给 
print() 调 用 @， 并 被 打印 在 屏幕 上 。 


请 注意 ， 因 为 可 以 将 返回 值 作为 参数 传递 给 为 一 个 函数 调用 ， 所 以 
你 可 以 将 下 面 3 行 代码 














r = random.randint(1, 9) 
fortune = getAnswer(r) 
print(fortune) 





缩写 成 一 行 等 价 的 代码 : 


print(getAnswer(random.randint(1, 9))) 





记 住 ， 表 达 式 是 值 和 操作 符 的 组 合 。 函 数 调用 可 以 用 在 表达 式 中 ， 
因为 它 求 值 为 它 的 返回 值 。 


3.3 None 值 


在 Python 中 有 一 个 值 称 为 None， 它 表示 没有 值 。None 是 NoneType 
数据 类 型 的 唯一 值 ( 其 他 编程 语言 可 能 称 这 个 值 为 nul、nil 或 
undefined) 。 就 像 布 尔 值 True 和 False 一 样 ，None 必 须 大 写 首 字母 N。 


如 采 你 希望 变量 中 存储 的 东西 不 会 与 一 个 真正 的 值 混 消 ， 这 个 没有 





值 的 值 就 可 能 有 用 。 有 一 个 使 用 None 的 地 方 就 是 print0) 的 返回 值 。 
printO 函 数 在 屏幕 上 显示 文本 ， 但 它 不 需要 返回 任何 值 ， 这 和 len0] 或 
input0 不 同 。 但 既然 所 有 函数 调用 都 需 要求 信 为 一 个 返回 值 ， 那 色 

prin Li 返回 None。 要 看 到 这 个 效果 ， 请 在 交互 式 环境 中 输入 以 下 代 








>>> spam = print('Hello!') 


Hello! 
>>> None == spam 





在 幕后 ， Bu a 的 函数 定义 ，Python 都 会 在 末尾 
加 上 return None。 这 类 似 于 while 或 for 人 循环 隐 ' 式 地 以 continue 语 句 结尾 。 
而 且 ， ia LAE FARA rena 句 〈 也 就 是 只 有 return 关 键 字 本 身 ) , 
那么 就 返回 None。 


3.4 关键 字 参 数 和 print() 


大 多 数 参 数 是 由 它们 在 函数 调用 中 的 位 置 来 识别 的 。 例 如 ， 
random.randint(1, 10) 与 random.randint(10, 1) 不同。 函数 调用 
random.randint(1, 10) 将 返回 1 到 10 之 间 的 一 个 随机 整数 ， 因 为 第 一 个 参 
“ 范围 的 下 界 ， 第 二 个 参数 是 范围 的 上 界 〈 而 random.randint(10, 1) 会 
导致 错误 ) 。 


但 是 , “关键 字 参 数 " 是 由 函数 调用 时 加 在 它们 前 面 的 关键 字 来 识别 
的 。 关 键 字 参 数 通常 用 于 可 选 变 元 。 例 如 ，PprintO 函 数 有 可 选 的 变 元 end 








和 sep， 分 别 指定 在 参数 末尾 打印 什么 ， 以 及 在 参数 之 间 打 印 什 么 来 隔 
Fe. 


如 果 运 行 以 下 程序 : 





print('Hello') 
print('World') 





输出 六 


ay 
Hp 
gu 


Hello 
World 
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男 一 个 字符 串 。 例 如 ， 如 果 程 序 像 这 样 : 





print('Hello', end='') 
print('World') 





输出 就 会 像 这 样 : 


HelloWorld 


输出 被 打印 在 一 行 中 ， 因 为 在 'Hello' 后面 不 再 打印 换行 ， 而 是 打印 


了 一 个 空 字符 串 。 如 果 需 要 禁用 加 到 每 一 个 print() 函 数 调 用 末尾 的 换 
行 ， 这 就 很 有 用 。 


类 似 地 ， 如 果 癌 print0 传 入 多 个 字符 串 值 ， 该 函数 束 会 目 动用 一 个 
空格 分 隔 它 们 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> print('cats', 'dogs', 'mice') 


cats dogs mice 





但 是 你 可 以 传 入 sep 关 键 字 参数 ， 伙 换 挥 默 认 的 分 隔 字 符 串 。 在 交 
互 式 环境 中 输入 以 下 代码 : 


>>> print('cats', 'dogs', 'mice', sep=',') 


cats,dogs,mice 














也 可 以 在 你 编写 的 函数 中 添加 关键 字 参 数 ， 但 必须 先 在 接 下 来 的 两 
章 中 学 习 列 表 和 字典 数据 类 型 。 现 在 只 要 知道 ， 茶 些 函 数 有 可 选 的 天 键 
字 参 数 ， 在 函数 调用 时 可 以 指定 。 


3.5 局 部 和 全 局 作用 域 





在 被 调用 函数 内 赋值 的 变 元 和 变量 ， 处 于 该 函数 的 “局 部 作用 域 ”。 
在 所 有 函数 之 外 赋值 的 变量 ， 属 于 “全 局 作用 域 ”。 处 于 局 部 作用 域 的 变 
量 ， 被 称 为 “局 部 变量 *”。 处 于 全 局 作用 域 的 变量 ， 被 称 为 “全 局 变量 ”。 
一 个 变量 必 是 其 中 一 种 ， 不 能 既是 局 部 的 又 是 全 局 的 。 


可 以 将 “作用 域 ?看 成 是 变量 的 容器 。 当 作用 域 被 销毁 时 ， 所 有 保存 
在 该 作用 域内 的 变量 的 值 就 被 丢弃 了 。 只 有 一 个 全 局 作用 域 ， 它 是 在 程 
序 开 始 时 创建 的 。 如 果 程 序 终止 ， 全 局 作用 域 就 梓 销 毁 ， 它 的 所 有 变量 
就 被 丢弃 了 。 否 则 ， 下 次 你 运行 程序 的 时 候 ， 这 些 变 量 束 会 记 住 它 们 上 
次 运行 时 的 值 。 


一 个 函数 被 调用 时 ， 束 创建 了 一 个 局 部 作用 域 。 在 这 个 函数 内 赋值 
的 所 有 变量 ， 存 在 于 该 局 部 作用 域内 。 该 函数 返回 时 ， 这 个 局 部 作用 域 
就 被 销毁 了 ， 这 些 变量 就 丢失 了 。 下 次 调用 这 个 函数 ， 局 部 变量 不 会 记 
得 该 函数 上 次 被 调用 时 它们 保存 的 值 。 


作用 域 很 重要 ， 理 由 如 下 : 


全 局 作用 域 中 的 代码 不 能 使 用 任何 局 部 变量 ; 
但 是 ， 局 部 作用 域 可 以 访问 全 局 变量 ; 
一 个 函数 的 局 部 作用 域 中 的 代码 ， 不 能 使 用 其 他 局 部 作用 域 中 的 变 


=! 


量 。 

如 果 在 不 同 的 作用 域 中 ， 你 可 以 用 相同 的 名 字 命 名 不 同 的 变量 。 也 
ae 可 以 有 一 个 名 为 spam 的 局 部 变量 ， 和 一 个 名 为 spam 的 全 
局 变量 。 


Python 有 不 同 的 作用 域 ， 而 不 是 让 所 有 东西 都 成 全 局 变量 ， 这 是 有 
理由 的 。 这 样 一 来 ， 当 特定 函数 调用 中 的 代码 修改 变量 时 ， 该 函数 与 程 
序 其 他 部 分 的 交互 ， 只 能 通过 它 的 参数 和 返回 值 。 这 缩小 了 可 能 导致 缺 
陷 的 代码 作用 域 。 如 果 程 序 只 包含 全 局 变量 ， 双 有 一 个 变量 赋值 错误 的 
缺陷 ， 那 束 很 难 妃 踪 这 个 赋值 错误 发 生 的 位 置 。 它 可 能 在 程序 的 任何 地 
方 赋值 ， 而 你 的 程序 可 能 有 几 百 到 几 千 行 ! 但 如 条 缺 陷 是 因为 局 部 变量 
错误 赋值 ， 你 就 会 知道 ， 只 有 那 一 个 函数 中 的 代码 可 能 产生 赋值 错误 。 


虽然 在 小 程序 中 使 用 全 局 变量 没有 太 大 问题 ， 但 当 程 序 变 得 越 来 越 
大 时 ， 依 赖 全 局 变量 就 是 一 个 坏 习惯 。 


3.5.1 局 部 变量 不 能 在 全 局 作用 域内 使 用 
























































考虑 下 面 的 程序 ， 它 在 运行 时 会 产生 错误 : 


def spam(): 
eggs = 31337 
spam() 


print(eggs) 





如 果 运 行 这 个 程序 ， 输 出 将 是 : 


Traceback (most recent call last): 
File "C:/test3784.py", line 4, in <module> 
print (eggs) 
NameError: name 'eggs' is not defined 





发 生 错误 是 因为 ，eggs 变 量 只 属于 spamgO 调 用 所 创建 的 局 部 作用 





域 。 在 程序 执行 从 spam 退 回 后 ， 该 局 部 作用 域 就 和 * 销 毁 了 ， 不 再 有 名 为 
eggs 的 变量 。 所 以 当 程 序 试图 执行 print(eggs)，Python 就 报错 ， 说 eggs 没 
有 定义 。 你 想 想 看 ， 这 是 有 意义 的 。 当 程序 执行 在 全 局 作用 域 中 时 ， 不 
存在 局 部 作用 域 ， 所 以 不 会 有 任何 局 部 变量 。 这 就 是 为 什么 只 有 全 局 变 
量 能 用 于 全 局 作用 域 。 











3.5.2 局 部 作用 域 不 能 使 用 其 他 局 部 作用 域内 的 变量 


一 个 函数 被 调用 时 ， 就 创建 了 一 个 新 的 局 部 作用 域 ， 这 包括 一 个 函 
数 被 性 一 个 函数 调用 时 的 情况 。 请 看 以 下 代码 : 





def spam(): 
@ eggs = 99 
@ bacon() 
© print(eggs) 


def bacon(): 
ham = 101 
@ eggs = 0 


© spam() 


在 程序 开始 运行 时 ，spam0 函 数 被 调用 加 ， 创 建 了 一 个 局 部 作用 
域 。 局 部 变量 eggs@ 被 赋值 为 99。 然 后 bacon() 函 数 被 调用 全， 创建 了 第 
二 个 局 部 作用 域 。 多 个 局 部 作用 域 能 同时 存在 。 在 这 个 新 的 局 部 作用 域 
中 ， 局 部 变量 ham 被 赋值 为 101。 局 部 变量 eggs (与 spam() 的 局 部 作用 域 
中 的 那个 变量 不 同 ) te pee, FEMME NO. 

当 bacon0 返 回 时 ， 这 次 调用 的 局 部 作用 域 被 销毁 。 程 序 执行 在 
spam() 函 数 中 继续 ， 打 印 出 eggs 的 值 @。 因 为 spam0 〇 调用 的 局 部 作用 域 
仍然 存在 ，eggs 变 量 被 赋值 为 99。 这 就 是 程序 的 打印 输出。 


E 一 个 函数 中 的 局 部 变量 完全 与 其 他 函数 中 的 局 部 变量 分 
RFK. 


3.5.3 全 局 变量 可 以 在 局 部 作用 域 中 读 取 
请 看 以 下 程序 : 

















def spam(): 
print(eggs) 


print(eggs) 





因为 在 spamg0 函 数 中 ， 没 有 变 元 名 为 eggs， 也 没有 代码 为 eggs 赋 
值 ， 所 以 当 spam() 中 使 用 eggs 时 ，Python 认 为 它 是 对 全 局 变量 eggs 的 引 
用 。 这 就 是 前 面 的 程序 运行 时 打印 出 42 的 原因 。 


3.5.4 名 称 相 同 的 局 部 变量 和 全 局 变量 











要 想 生 活 简单 ， 就 要 避免 局 部 变量 与 全 局 变量 或 其 他 局 部 变量 同 
名 。 但 在 技术 上 ， 在 Python 中 让 局 部 变量 和 全 局 变量 同名 是 完全 合法 
的 。 为 了 看 看 实际 发 生 的 情况 ， 请 在 文件 编辑 器 中 输入 以 下 代码 ， 并 保 
存 为 sameName.py: 











def spam(): 
@ eggs = 'spam local' 
print(eggs) # prints ‘spam local' 


bacon(): 

eggs = ‘bacon local’ 

print(eggs) # prints ‘bacon local' 
spam() 

print(eggs) # prints ‘bacon local' 


© eggs = ‘global’ 
bacon() 
print(eggs) # prints ‘global’ 





运行 该 程序 ， 输 出 如 下 : 


bacon local 
spam local 
bacon local 
global 





在 这 个 程序 中 ， 实 际 上 有 3 个 不 同 的 变量 ， 但 令 人 迷惑 的 是 ， 它 们 
都 名 为 eggs。 这 些 变量 是 : 





种 名 为 eggs 的 变量 ， 存 在 于 spam0 被 调用 时 的 局 部 作用 域 ; 
幼名 为 eggs 的 变量 ， 存 在 于 bacon(0) 被 调用 时 的 局 部 作用 域 ; 
全 名 为 eggs 的 变量 ， 存 在 于 全 局 作用 域 。 














因为 这 3 个 独立 的 变量 都 有 相同 的 名 字 ， 奶 踩 茶 一 个 时 刻 使 用 的 是 
哪个 变量 ， 可 能 比较 麻烦 。 这 就 是 应 该 避免 在 不 同 作 用 域内 使 用 相同 变 
量 名 的 原因 。 





3.6 global 语 名 


如 琳 逢 要 在 一 个 函数 内 修改 全 局 变量 ， 束 使 用 global 语 句 。 如 来 在 
函数 的 顶 部 有 global eggs 这 样 的 代码 ， 它 束 告 诉 Python, “在 这 个 函数 
中 ，eggs 指 的 是 全 局 变量 ， 所 以 不 要 用 这 个 名 字 创 建 一 个 局 部 变 
量 。” 例 如 ， 在 文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 saameName2.py: 





def spam(): 
@ global eggs 
@ eggs = 'spam' 


eggs = ‘global’ 


spam() 
print(eggs) 








运行 该 程序 ， 最 后 的 printO 调 用 将 输出 : 


spam 


因为 eggs 在 spam() 的 顶部 被 声明 为 global@， 所 以 当 eggs 被 赋值 
为 spam' 时 信 ， 赋 值 发 生 在 全 局 作用 域 的 spam 上。 没有 创建 局 部 spam 变 
Æo 





有 4 条 法 则 ， 来 区 分 一 个 变量 是 处 于 局 部 作用 域 还 是 全 局 作用 域 : 


1. 如 果 变 量 在 全 局 作用 域 中 使 用 〈 即 在 所 有 函数 之 外 ) ， 它 就 总 
古 全 局 变量 。 








2. 如 果 在 一 个 函数 中 ， 有 和 针对 该 变量 的 global 语 句 ， 它 就 是 全 局 变 











3， 否 则 ， 如 果 该 变量 用 于 函数 中 的 赋值 语句 ， 它 就 是 局 部 变量 。 
4. 但 是 ， 如 果 该 变量 没有 用 在 赋值 语句 中 ， 它 就 是 全 局 变量 。 


为 了 更 好 地 理解 这 些 法 则 ， 这 里 有 一 个 例子 程序 。 在 文件 编辑 器 中 
输入 以 下 代码 ， 并 保存 为 sameName3.py: 








def spam(): 
global eggs 
eggs = 'spam' # this is the global 


def bacon(): 

eggs = ‘bacon’ # this is a local 
def ham(): 

print(eggs) # this is the global 


eggs = 42 # this is the global 
spam() 
print(eggs) 








在 spam0 函 数 中 ，eggs 是 全 局 eggs 变 量 ， 因 为 在 函数 的 开始 处 ， 有 
针对 eggs 变 量 的 global 语 句 @。 在 bacon() 中 ，eggs 是 局 部 变量 ， 因 为 在 
该 函数 中 有 和 针对 它 的 赋值 语句 人 @。 在 ham() 中 全 ，eggs 是 全 局 变量 ， 因 
为 在 这 个 函数 中 ， 既 没有 赋值 语句 ， 也 没有 针对 它 的 global 语 句 。 如 采 


运行 sameName3.py， 输 出 将 是 : 








spam 














在 一 个 函数 中 ， 一 个 变量 要 么 总 是 全 局 变量 ， 要 么 总 是 局 部 变量 。 
函数 中 的 代码 没有 办 法 先 使 用 名 为 eggs 的 局 部 变量 ， 稍 后 又 在 同一 个 函 
数 中 使 用 全 局 eggs 变 量 。 





如 有 果 想 在 一 个 函数 中 修改 全 局 变量 中 存储 的 值 ， 束 必须 对 该 变量 使 
用 global 语 句 。 


竺 一 个 函数 中 ， 如 果 试 图 在 局 部 变量 赋值 之 前 就 使 用 它 ， 像 下 面 的 
程序 这 样 ，Python 就 会 报错 。 为 了 看 到 效果 ， 请 在 文件 编辑 器 中 输入 以 
下 代码 ， 并 保存 为 sameName4.py: 





def spam(): 
print(eggs) # ERROR! 
@ eggs = 'spam local' 


@ eggs = ‘global’ 
spam() 








运行 前 面 的 程序 ， 会 产生 出 错 信 息 


Traceback (most recent call last): 
File "C:/test3784.py", line 6, in <module> 
spam() 
File "C:/test3784.py", line 2, in spam 
print(eggs) # ERROR! 


UnboundLocalError: local variable 'eggs' referenced before assignment 





发 生 这 个 错误 是 因为 ，Python 看 到 spam0 函 数 中 有 针对 eggs 的 赋值 
语句 @Q@， 因 此 认为 eggs 变 量 是 局 部 变量 。 但 是 因为 print(eggs) 的 执行 在 
eggs 赋 值 之 前 ， 局 部 变量 eggs 并 不 存在 。Python 不 会 退回 到 使 用 全 局 
eggs 变 量 @，。 


3.7 异常 处 理 


到 目前 为 止 ， 在 Python 程 序 中 过 到 错误 ， 或 “异常 ”， 意 味 着 整个 程 
Aa T ee 相反 ， 你 希望 程序 能 DA 

















例如 ， 考 虑 下 面 的 程序 ， 它 有 一 个 “除数 为 零 " 的 错误 。 打 开 一 个 新 
的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 zeroDivide.py: 


def spam(divideBy): 
return 42 / divideBy 


print(spam(2) ) 
print(spam(12) ) 


print(spam(@) ) 
print(spam(1) ) 





我 们 已 经 定义 了 名 为 spam 的 函数 ， 给 了 它 一 个 变 元 ， 然 后 打印 出 访 
函数 带 各 种 参数 的 值 ， 看 看 会 发 生 什么 情况 。 下 面 是 运行 前 面 代码 的 输 











Traceback (most recent call last): 
File "C:/zeroDivide.py", line 6, in <module> 
print(spam(@) ) 
File "C:/zeroDivide.py", line 2, in spam 
return 42 / divideBy 
ZeroDivisionError: division by zero 





当 试 图 用 一 个 数 除 以 零 时 ， 束 会 发 生 ZeroDivisionError。 根 据 错误 误 
信息 中 给 出 的 行 号 ， 我 们 知道 spam0 中 的 return 语 名 导致 了 一 个 错误 。 


因数 作为 “ 黑 盒 ” 


通常 ， 对 于 一 个 函数 ， 你 要 知道 的 就 是 它 的 输入 值 〈 变 元 ) 和 输出 值 。 你 并 非 总 是 需要 
加 重 自 己 的 负担 ， 弄 清楚 函数 的 代码 实际 是 怎样 工作 的 。 如 果 以 这 种 高 层 的 方式 来 思考 函 
数 ， 通 常 大 家 会 说 ， 你 将 该 函数 看 成 是 一 个 黑 盒 。 


这 个 思想 是 现代 编程 的 基础 。 本 书后 面 的 章节 将 向 你 展示 一 些 模块 ， 其 中 的 函数 是 | 
他 人 编写 的 。 尽 管 你 在 好 奇 的 时 候 也 可 以 看 一 看 源 代码 ， 但 为 了 能 使 用 它们 ， 你 并 不 需要 知 
道 它们 是 如 何 工 作 的 。 而 且 ， 因 为 鼓励 在 编写 函数 时 不 使 用 全 局 变量 ， 你 通常 也 不 必 担心 函 
数 的 代码 会 与 程序 的 其 他 部 分 发 生 交 叉 影 啊 。 













































































































































































错误 可 以 由 try 和 except 语 句 来 处 理 。 那 些 可 能 出 错 的 语句 被 放 在 try 
子 名 中。 如 果 错 误 发 生 ， 程 序 执行 束 转 到 接 下 来 的 except 子 句 开 始 处 。 


可 以 将 前 面 除数 为 零 的 代码 放 在 一 个 try 子 句 中 ， 让 except 子 句 包含 
代码 ， 来 处 理 该 错误 发 生 时 应 该 做 的 事 。 


def spam(divideBy): 
try: 
return 42 / divideBy 
except ZeroDivisionError: 
print('Error: Invalid argument. ') 


print(spam(2) ) 
print(spam(12) ) 
print(spam(@) ) 
print(spam(1) ) 





如 果 在 try 子 句 中 的 代码 导致 一 个 错误 ， 程 序 执行 就 立即 转 到 except 
子 名 的 代码 。 在 运行 那些 代码 之 后 ， 执 行 照常 继续 。 前 面 程序 的 输出 如 
下 : 


Error: Invalid argument. 
None 
42.0 





请 注意 ， 在 函数 调用 中 的 try 语 句 块 中 ， 发 生 的 所 有 错误 都 会 被 捕 
捉 。 请 考 夸 以 下 程序 ， 它 的 做 法 不 一 样 ， 将 spamgO 调 用 放 在 语句 块 中 : 


def spam(divideBy): 
return 42 / divideBy 


try: 


print(spam(2) ) 
print(spam(12) ) 
print(spam(@) ) 
print(spam(1) ) 
except ZeroDivisionError: 
print( ‘Error: Invalid argument. ') 


Error: Invalid argument. 





print(spam(1)) 从 未 被 执行 是 因为 ， 一 旦 执行 跳 到 except 子 句 的 代 
码 ， 就 不 会 回 到 try 子 句 。 它 会 继续 照常 向 下 执行 。 


3.8 一 个 小 程序 : 猜 数 字 


到 目前 为 止 ， 前 面 展示 的 小 例子 适合 于 介绍 基本 概念 。 现 在 让 我 们 
看 一 看 ， 如 何 将 所 学 的 知识 综合 起 来 ， 编 写 一 个 更 完整 的 程序 。 在 本 市 
Sees 在 运行 这 个 程序 时 ， 输 出 看 起 来 

这 样 : 








I am thinking of a number between 1 and 20. 
Take a guess. 
10 


Your guess is too low. 
Take a guess. 
15 


Your guess is too low. 
Take a guess. 
17 


Your guess is too high. 
Take a guess. 
16 


Good job! You guessed my number in 4 guesses! 





在 文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 guessTheNumber.py: 





# This is a guess the number game. 

import random 

secretNumber = random.randint(1, 20) 

print('I am thinking of a number between 1 and 20.') 


# Ask the player to guess 6 times. 
for guessesTaken in range(1, 7): 
print('Take a guess.') 
guess = int(input()) 


if guess < secretNumber: 
print('Your guess is too low.') 
elif guess > secretNumber: 
print('Your guess is too high.') 
else: 
break # This condition is the correct guess! 


if guess == secretNumber: 


print('Good job! You guessed my number in ' + str(guessesTaken) + ' gue 
else: 


print('Nope. The number I was thinking of was ' + str(secretNumber) ) 





证 我 们 逐 行 来 看 看 代码 ， 从 头 开始 。 


# This is a guess the number game. 
import random 
secretNumber = random.randint(1, 20) 








首先 ， 代 码 顶 部 的 一 行 注 释 解释 了 这 个 程序 做 什么 。 然 后 ， 程 序 导 
入 了 模块 random， 以 便 能 用 random.randintO 函 数 生 成 一 个 数字 ， 让 用 户 
来 猜 。 返 回 值 是 一 个 1 到 20 之 闻 的 随机 整数 ， 保 存在 变量 secretNumber 
中 。 


print('I am thinking of a number between 1 and 20.') 


# Ask the player to guess 6 times. 
for guessesTaken in range(1, 7): 
print('Take a guess.') 


guess = int(input()) 





程序 告诉 玩家 ， 它 有 了 一 个 秘密 数字 ， 并 且 给 玩家 6 次 猜测 机 会 。 
在 for 循 环 中 ， 代 码 让 玩家 输入 一 次 猜测 ， 并 检查 该 猜测 。 该 循环 最 多 达 
代 6 次 。 循 环 中 发 生 的 第 一 件 事 情 ， 是 让 玩家 输入 一 个 猜测 数字 。 因 为 
input() 返 回 一 个 字符 串 ， 所 以 它 的 返回 值 被 直接 传递 给 int()， 它 将 字符 
串 转 变 成 整数 。 这 保存 在 名 为 guess 的 变量 中 。 


if guess < secretNumber: 





print('Your guess is too low.') 
elif guess > secretNumber: 
print('Your guess is too high.') 

















这 几 行 代码 检查 该 猜测 是 小 于 还 是 大 于 那个 秘密 数字 。 不 论 哪 种 情 
况 ， 都 在 屏幕 上 打印 提示 。 


else : 
break # This condition is the correct guess! 








如 果 该 猜测 既 不 大 于 也 不 小 于 秘密 数字 ， 那 么 它 就 一 定 等 于 秘密 数 
字 ， 这 时 你 希望 程序 执行 跳出 for 循 环 。 


if guess == secretNumber: 

print('Good job! You guessed my number in ' + str(guessesTaken) + ' gue 
else: 

print('Nope. The number I was thinking of was ' + str(secretNumber) ) 











在 for 循 坏 后 ， 前 面 的 if...else 语 句 检 查 玩 家 是 人 否 正确 地 猜 到 了 该 数 
字 ， 并 将 相应 的 信息 打印 在 屏幕 上 。 不 论 哪 种 情况 ， 程 序 都 会 打印 一 个 
包含 整数 值 的 变量 〈guessesTaken 和 secretNumber) 。 因 为 必须 将 这 些 整 
数值 连接 成 字符 串 ， 所 以 它 将 这 些 变 量 传递 给 str() 函 数 ， 该 函数 返回 这 
些 整 数值 的 字符 串 形式 。 现 在 这 些 字 符 串 可 以 用 + 操作 符 连 接 起 来 ， 最 


后 传递 给 print0 函 数 调 用 。 


3.9 小 结 


半 数 是 将 代码 逻辑 分 组 的 主要 方式 。 因 为 函数 中 的 变量 存在 于 它们 
目 己 的 局 部 作用 域内 ， 所 以 一 个 函数 中 的 代码 不 能 直接 影响 其 他 函数 中 








变量 的 值 。 这 限制 了 哪些 代码 才能 改变 变量 的 值 ， 对 于 调试 代码 是 很 有 
帮助 的 。 


函数 是 很 好 的 工具 ， 帮 助 你 组 织 代码 。 你 可 以 认为 他 们 是 黑 盒 。 它 
们 以 参数 的 形式 接收 输入 ， 以 返回 值 的 形式 产生 输出 。 它 们 内 部 的 代码 
不 会 影响 其 他 函数 中 的 变量 。 
在 前 面 几 章 中 ， 一 个 错误 就 可 能 导致 程序 朋 涡 。 在 本 章 中 ， 你 学 习 
了 try 和 except 在 句 ， 它 们 在 检测 到 错误 时 会 运行 代码 。 这 让 程序 在 面 对 
常见 错误 时 更 有 灵活 性 。 
3.10 习题 
1. 为 什么 在 程序 中 加 入 函数 会 有 好 处 ? 


BR 男 数 中 的 代码 何 时 执行 : 在 函数 被 定义 时 ， 还 是 在 函数 被 调用 
HT? 


3. 什么 语句 创建 一 个 函数 ? 

4. 函数 和 一 次 函数 调用 有 什么 区 别 ? 

5. Python 程序 中 有 多 少 全 局 作用 域 ?” 有 多 少 局 部 作用 域 ? 
6. 当 函 数 调用 返回 时 ， 局 部 作用 域 中 的 变量 发 生 了 什么 ? 
7. 什么 是 返回 值 ? 返回 值 可 以 作为 表达 式 的 一 部 分 吗 ? 
8. 如 果 函 数 没 有 返回 语句 ， 对 它 调 用 的 返回 值 是 什么 ? 

9. 如 何 强 制 函数 中 的 一 个 变量 指 的 是 全 局 变量 ? 

10. None 的 数据 类 型 是 什么 ? 

















11. import areallyourpetsnamederic 语 句 做 了 什么 ? 


12: 如 果 在 名 为 spam 的 模块 中 ， 有 一 个 名 为 bacon0 的 函数 ， 在 引入 
spam 后 ， 如 何 调用 它 ? 


13. 如 何 防止 程序 在 遇 到 错误 时 崩 溪 ? 
14. try 子 句 中 发 生 了 什么 ?except 子 句 中 发 生 了 什么 ? 


3.11 KRH H 
作为 实践 ， 请 编写 程序 完成 下 列 任务 。 
3.11.1 Collatz 序 列 


编写 一 个 名 为 collatz() 的 函数 ， 它 有 一 个 名 为 humber 的 参数 。 如 果 
参数 是 偶数 ， 那 么 collatz() 就 打印 出 number// 2， 并 返回 该 值 。 如 果 
number 是 奇数 ，collatz() 就 打印 并 返回 3 * number + 1. 


然后 编写 一 个 程序 ， 让 用 户 输入 一 个 整数 ， 并 不 断 对 这 个 数 调 用 
collatz0， 直 到 函数 返回 值 1 ( 令 人 惊奇 的 是 ， 这 个 序列 对 于 任何 整数 
都 有 效 ， 利 用 这 个 序列 ， 你 迟早 会 得 到 1! 既 使 数学 家 也 不 能 确定 为 什 
么 。 你 的 程序 在 研究 所 谓 的 “Collatz 序 列 "”， 它 有 时 候 被 称 为 “最 简单 
的 、 不 可 能 的 数学 问题 ">) 。 


记得 将 inputO 的 返回 值 用 intO 函 数 转 成 一 个 整数 ， 否 则 它 会 是 一 个 























如 果 number % 2 == 0， 整 数 number 就 是 偶数 ， 如 果 number % 2 == 1， 它 就 是 奇数 。 


这 个 程序 的 输出 看 起 来 应 该 像 这 样 : 





pO 


3.11.2 输入 验证 


在 前 面 的 项 目 中 添加 try 和 except 语 句 ， 检 测 用 户 是 否 输入 了 一 个 非 
整数 的 字符 串 。 正 常情 况 下 ，int0 函 数 在 传 入 一 个 非 整 数字 符 串 时 ， 会 
产生 ValueError 错 误 ， 比 如 int('puppy')。 在 except 子 句 中 ， 向 用 户 输出 一 
条 信息 ， 告 诉 他 们 必须 输入 一 个 整数 。 


Ham ”列表 


在 你 能 够 开始 编写 程序 之 前 ， 还 有 一 个 主题 需要 理解 ， 那 就 是 列表 
数据 类 型 及 元 组 。 列 表 和 元 组 可 以 包含 多 个 值 ， 这 样 编写 程序 来 处 理 大 
量 数据 就 变 得 更 容易 。 而 且 ， 由 于 列表 本 喘 又 可 以 包含 其 他 列表 ， 上 所 以 
可 以 用 它们 将 数据 安排 成 层次 结构 。 


本 章 将 探讨 列表 的 基础 知识 。 我 也 会 讲授 关于 方法 的 内 容 。 方 法 也 
是 函数 ， 它 们 与 特定 数据 类 型 的 值 绑 定 。 然 后 我 会 简单 介绍 类 似 列表 的 
元 组 和 字符 串 数据 类 型 ， 以 及 它们 与 列表 值 的 比较 。 下 一 章 将 介绍 字典 
数据 类 型 。 


4.1 列表 数据 类 型 


“列表 ”是 一 个 值 ， 它 包含 多 个 字 构 成 的 序列 。 术 语 “ 列 表 值 ” 指 的 是 
列表 本 身 〈 它 作为 一 个 值 ， 可 以 保存 在 变量 中 ， 或 传递 给 函数 ， 像 所 有 
其 他 值 一 样 ) ， 而 不 是 指 列 表 值 之 内 的 那些 值 。 列 表 值 看 起 来 像 这 样 : 
[‘cat’, bat, Tat, 'elephant']。 就 像 字 符 串 值 用 引号 来 标记 字符 串 的 起 止 一 
样 ， 列 表 用 左 方 括 号 开始 ， 右 方 插 写 结束 ， 即 中。 列表 中 的 值 也 称 为 “ 表 
项 ”。 表 项 用 有 喜 号 分 隔 〈 就 是 说 ， 它 们 是 “ 喜 号 分 隔 的 >) 。 例 如 ， 在 交 
互 式 环境 中 输入 以 下 代码 : 






































>>> [1，2，3] 


[1, 2, 3] 
>>> ['cat', 'bat', 'rat', 'elephant'] 


['cat', 'bat', 'rat', 'elephant'] 
>>> ['hello', 3.1415, True, None, 42] 


['hello', 3.1415, True, None, 42] 
@ >>> spam = ['cat', ‘bat’, ‘rat’, ‘elephant’ ] 


>>> Spam 


['cat', ‘bat’, 'rat', "elephant ] 





spams OVI ABU “MA: 列表 值 。 但 列表 值 本 号 包含 多 个 
值 。 吕 是 一 个 空 列表 ， 不 包含 任何 值 ， 类 似 于 空 字符 串 ”。 











4.1.1 用 下 标 取得 列表 中 的 单个 值 


假定 列表 [cat, bat, rat, 'elephant] 保 存在 名 为 spam 的 变量 中 。 
Python 代码 spam[0] 将 求 值 为 "cat，spam[1] 将 求 值 为 bat， 依 此 类 推 。 列 
表 后 面 方 括号 内 的 整数 被 称 为 “下 标 ”。 列 表 中 第 一 个 值 的 下 标 是 0， 第 
二 个 值 的 下 标 是 1， 第 三 个 值 的 下 标 是 2， 依 此 类 推 。 图 4-1 展 示 了 一 个 
赋 给 spam 的 列表 值 ， 以 及 下 标 表 达 式 的 求 值 结果 。 


spam = ["cat", "bat", "rat", "elephant" | 





spam[O] spam[1] spam[2]  spam[3] 
图 4-1 一 个 列表 值 保存 在 spam 变 量 中 ， 展 示 了 每 个 下 标 指向 哪个 值 




















例如 ， 在 交互 式 环境 中 输入 以 下 表达 式 。 开 始 将 列表 赋 给 变量 


spam. 





>>> spam = ['cat', 'bat', 'rat', ‘elephant'] 


>>> Spam[6] 


"cat' 
>>> spam[1] 


‘bat’ 
>>> spam[2] 


"Pat 
>>> spam[3] 


"elephant' 
>>> ['cat', ‘bat’, 'rat', ‘elephant'][3] 


"elephant' 
@ >>> "Hello ' + spam[@] 


@ ‘Hello cat' 
>>> 'The ' + spam[1] + ' ate the ' + spam[@] + '.' 


"The bat ate the cat.' 





请 注意 ， 表 达 式 'Hello ' + spam[0] Ok (A A'Hello'+'cat', ALA 
spam[0] 求 值 为 字符 串 'cat'。 这 个 表达 式 也 因此 求 值 为 字符 串 'Hello 


cat'®. 





j DAEA 的 下 标 超 出 了 列表 中 值 的 个 数 ，Python 将 给 出 IndexError 
faa 


>>> spam = ['cat', 'bat', 'rat', ‘elephant’ ] 


>>> spam[100ee] 


Traceback (most recent call last): 


File "<pyshell#9>", line 1, in <module> 
spam[ 100@0 | 
IndexError: list index out of range 





下 标 只 能 是 整数 ， 不 能 是 浮 点 值 。 下 面 的 例子 将 导致 TypeError 错 


>>> spam = ['cat', 'bat', ‘rat', "elephant ] 


>>> spam[1] 


‘bat' 
>>> spam[1.0] 


Traceback (most recent call last): 
File "<pyshell#13>", line 1, in <module> 
spam[1.0] 
TypeError: list indices must be integers, not float 
>>> spam[int(1.0) ] 





列表 也 可 以 包含 其 他 列表 值 。 这 些 列表 的 列表 中 的 值 ， 可 以 通过 多 
重 下 标 来 访问 ， 像 这 样 : 





>>> spam = [['cat', 'bat'], [10, 20, 30, 40, 50]] 


>>> Spam[6] 


['cat', ‘bat'] 
>>> spam[@][1] 


'bat' 
>>> spam[1][4] 








第 一 个 下 标 表 明 使 用 哪个 列表 值 ， 第 二 个 下 标 表 明 该 列表 值 中 的 
值 。 例 如 ，spam[0][1] 打 印 出 'bat"， 即 第 一 个 列表 中 的 第 二 个 值 。 如 果 只 
使 用 一 个 下 标 ， 程 序 将 打印 出 该 下 标 处 的 完整 列表 值 。 


4.1.2 负数 下 标 


里 然 下 标 从 0 开始 并 向 上 增长 ， 但 也 可 以 用 负 整 数 作为 下 标 。 整 数 
值 -1 指 的 是 列表 中 的 最 后 一 个 下 标 ，-2 指 的 是 列表 中 倒数 第 二 个 下 标 ， 
以 此 类 推 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> spam = ['cat', 'bat', 'rat', 'elephant'] 


>>> spam[ -1] 


"elephant 
>>> spam[ -3] 


'bat' 
>>> 'The ' + spam[-1] + ' is afraid of the ' + spam[-3] + '.' 


"The elephant is afraid of the bat.' 








4.1.3 利用 切片 取得 子 列表 
就 像 下 标 可 以 从 列表 中 取得 单个 值 一 样 , “切片 "可 以 从 列表 中 取得 





多 个 值 ， 结 果 是 一 个 新 列表 。 切 请 输入 在 一 对 方 括号 中 ， 像 下 标 一 样 ， 
但 它 有 两 个 冒号 分 隔 的 整数 。 请 注意 下 标 和 切片 的 不 同 。 


。 spam[2] 是 一 个 列表 和 下 标 〈 一 个 整数 ) 。 
e spam[1:4] 是 一 个 列表 和 切片 〈 两 个 整数 ) 。 


在 一 个 切片 中 ， 第 一 个 整数 是 切片 开始 处 的 下 标 。 第 二 个 整数 是 切 


片 结束 处 的 下 标 。 切 片 向 上 增长 ， 直 至 第 二 个 下 标的 值 ， 但 不 包括 它 。 
切片 求 值 为 一 个 新 的 列表 值 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> spam = ['cat', 'bat', 'rat', "elephant ] 





>>> spam[@:4] 


['cat', ‘bat’, 'rat', ‘elephant’ ] 
>>> spam[1:3] 


['bat', ‘rat'] 
>>> spam[@:-1] 


['cat', ‘bat’, 'rat'] 








作为 快捷 方法 ， 你 可 以 省 略 切 片 中 冒号 两 边 的 一 个 下 标 或 两 个 下 





标 。 省 略 第 一 个 下 标 相 当 于 使 用 0， 或 列表 的 开始 。 省 略 第 二 个 下 标 相 
人 
以 下 代码 ; 











>>> spam = ['cat', 'bat', ‘rat', "elephant '] 


>>> spam[ :2] 


['cat', ‘bat'] 
>>> spam[1: ] 


['bat', ‘rat', ‘elephant’ ] 
>>> spam[: ] 


['cat', ‘bat’, ‘rat', ‘elephant’ ] 








4.1.4 用 len0 取 得 列表 的 长 度 


len) K OR R EREA E IRENE MARE ERFIR 
中 字符 的 个 数 一 样 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> spam = ['cat', 'dog', 'moose'] 


>>> len(spam) 


pO 


4.1.5 用 下 标 改变 列表 中 的 值 


一 般 情 况 下 ， 赋 值 语句 左边 是 一 个 变量 名 ， 就 像 spam = 4。 但 是 ， 
也 可 以 使 用 列表 的 下 标 来 改变 下 标 处 的 值 。 例 如 ，spam[1] = 'aardvark' 意 
味 着 “将 列表 spam 下 标 1 处 的 值 赋值 为 字符 串 'aardvark'"。 在 交互 式 环境 中 
输入 以 下 代码 : 








>>> spam = ['cat', 'bat', 'rat', 'elephant'] 


>>> spam[1] = 'aardvark' 


>>> spam 


['cat', ‘aardvark', 'rat', 'elephant'] 
>>> spam[2] = spam[1] 


>>> spam 


['cat', ‘aardvark', 'aardvark', 'elephant'] 
>>> spam[-1] = 12345 


>>> spam 


['cat', ‘aardvark', ‘aardvark', 12345] 





4.1.6 列表 连接 和 列表 复制 


+ 操作 符 可 以 连接 两 个 列表 ， 得 到 一 个 新 列表 ， 就 像 它 将 两 个 字符 
站 合并 成 一 个 新 字符 串 一 样 。* 操 作 符 可 以 用 于 一 个 列表 和 一 个 整数 ， 





实现 列表 的 复制 。 在 交互 式 环境 中 输入 以 下 代码 : 





[1, 2, 3, ‘A’, 'B', 'C'] 
>>> ['X', 'Y', 'Z'] * 3 


['X', PEs "L'y 'X', Y "E3 K y Ys 'Z'] 
>>> spam = [1, 2, 3] 


>>> Spam = spam + ['A', 'B', 'C'] 





4.1.7 用 del 语 句 从 列表 中 删除 值 


del 语 句 将 删除 列表 中 下 标 处 的 值 ， 表 中 被 删除 值 后 面 的 所 有 值 ， 
都 将 向 前 移动 一 个 下 标 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 





>>> spam = ['cat', 'bat', ‘rat', "elephant ] 


>>> del spam[2] 


>>> Spam 


['cat', 'bat', ‘elephant’ ] 
>>> del spam[2] 


>>> Spam 


['cat', ‘bat'] 





del 语 句 也 可 用 于 一 个 简单 变量 ， 删 除 它 ， 作 用 就 像 是 “取消 赋值 ” 语 
人 句 。 如 果 在 删除 之 后 试图 使 用 该 变量 ， 束 会 遇 到 NameError 错 误 ， 因 为 
该 变量 已 不 再 存在 。 

在 实践 中 ， 你 几乎 永远 不 需要 删除 简单 变量 。del 语 句 几 乎 总 是 用 
于 删除 列表 中 的 值 。 


4.2 使 用 列表 


当 你 第 一 次 开始 编程 时 ， 很 容易 会 创建 许多 独立 的 变量 ， 来 保存 一 
组 类 似 的 值 。 例 如 ， 如 果 要 保存 我 的 猫 的 名 字 ， 可 能 会 写 出 这 样 的 代 











catName1 
catName2 
catName3 
catName4 
catName5 
catName6 


'Zophie' 
'Pooka' 
'Simon' 

"Lady Macbeth' 
'Fat-tail' 
'Miss Cleo' 





事实 表明 这 是 一 种 不 好 的 编程 方式 。 举 一 个 例子 ， 如 果 猫 的 数目 发 
生 改 变 ， 程 序 就 不 得 不 增加 变量 ， 来 保存 更 多 的 猫 。 这 种 类 型 的 程序 也 
有 很 多 重复 或 几乎 相等 的 代码 。 考 虑 下 面 的 程序 中 有 多 少 重 复 代 码 ， 在 
文本 编辑 器 中 输入 它 并 保存 为 alMyCats1.py: 














print('Enter the name of cat 1:') 
catName1 = input() 
print('Enter the name of cat 2:') 


catName2 = input() 

print('Enter the name of cat 3:') 
catName3 = input() 

print('Enter the name of cat 4:') 
catName4 = input() 

print('Enter the name of cat 5:') 
catName5 = input() 

print('Enter the name of cat 6:') 
catName6 = input() 

print('The cat names are:') 
print(catNamel + ' ' + catName2 + ' ' + catName3 + ' ' + catName4 + ' ' + 
catName5 + ' ' + catName6) 





不 必 使 用 多 个 重复 的 变量 ， 你 可 以 使 用 单个 变量 ， 包 含 一 个 列表 
值 。 例 如 ， 下 面 是 新 的 改进 版 本 的 alMyCats1.py 程 序 。 这 个 新 版 本 使 用 
了 一 个 列表 ， 可 以 保存 用 户 输入 的 任意 多 的 猫 。 在 新 的 文件 编辑 器 窗口 
中 ， 输 入 以 下 代码 并 保存 为 alMyCats2.py。 





catNames = [ ] 
while True : 

print('Enter the name of cat ' + str(len(catNames) + 1) + 

' (Or enter nothing to stop.):') 
name = input( 
if name == '': 
break 

catNames = catNames + [name] # list concatenation 
print('The cat names are:') 
for name in catNames: 

print(' ' + name) 





运行 这 个 程序 ， 输 出 看 起 来 像 这 样 : 





Enter the name of cat 1 (Or enter nothing to stop.): 
Zophie 


Enter the name 
Pooka 


Enter the name 
Simon 


Enter the name 
Lady Macbeth 


Enter the name 
Fat-tail 


Enter the name 
Miss Cleo 


Enter the name 


The cat names are: 


Zophie 

Pooka 

Simon 

Lady Macbeth 
Fat-tail 
Miss Cleo 


of 


of 


of 


of 


of 


of 


cat 


cat 


cat 


cat 


cat 


cat 


(Or 


(Or 


(Or 


(Or 


(Or 


(Or 


enter 


enter 


enter 


enter 


enter 


enter 


nothing 


nothing 


nothing 


nothing 


nothing 


nothing 


to 


to 


to 


to 


to 


to 


stop. 


stop. 


stop. 


stop. 


stop. 


stop. 


使 用 列表 的 好 处 在 于 ， 现 在 数据 放 在 一 个 结构 中 ， 所 以 程序 能 够 更 
灵活 的 处 理 数据 ， 比 放 在 一 些 重复 的 变量 中 方便 。 


4.2.1 列表 用 于 循环 
在 第 2 章 中 ， 你 学 习 了 使 用 循环 ， 对 一 段 代 码 执 行 一 定 次 数 。 从 技 


术 上 说 ， 循 环 是 针对 一 个 列表 或 类 似 列表 中 的 每 个 值 ， 重 复 地 执行 代码 
块 。 例 如 ， 如 果 执 行 以 下 代码 : 





for i in range(4): 


print(i) 





程序 的 输出 将 是 : 


WwW NBEO 


这 是 因为 range(4) 的 返回 值 是 类 似 列表 的 值 。Python 认 为 它 类 似 于 
[0, 1 2, 3]。 下 面 的 程序 和 前 面 的 程序 输出 相同 : 


for iin [@, 1, 2, 3]: 


print(i) 





前 面 的 for 循 环 实际 上 是 在 循环 执行 它 的 子 句 ， 在 每 次 达 代 中 ， 让 变 
量 依次 设置 为 列表 中 的 值 。 
注意 | 


在 本 书 中 ， 我 使 用 术语 “类 似 列表 ”， 来 指 技术 上 称 为 "序列 ”的 数据 类 型 。 但 是 ， 你 不 需要 知道 
这 个 术语 的 技术 定义 。 




















一 个 常见 的 Python 技 巧 ， 是 在 for 循 环 中 使 用 range(len(someList))， 
友人 代 列表 的 每 一 个 下 标 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 ; 


>>> supplies = ['pens', ‘staplers’, 'flame-throwers', 'binders'] 


>>> for i in range(len(supplies) ): 


print('Index ' + str(i) + ' in supplies is: ' + supplies[i]) 


supplies is: pens 

supplies is: staplers 
supplies is: flame-throwers 
supplies is: binders 





在 前 面 的 循环 中 使 用 range(len(supplies)) 很 方便 ， 这 是 因为 ， 循 环 中 
的 代码 可 以 访问 下 标 〈 通 过 变量 i) ， 以 及 下 标 处 的 值 〈 通 过 
supplies[i] )。 最 妙 的 是 ，range(len(supplies)) 将 迭代 supplies 的 所 有 下 
标 ， 无 论 它 包含 多 少 表 项 。 





4.2.2 in 和 not ip 操作 符 


利用 让 和 mnot in 操作 符 ， 可 以 确定 一 个 值 否 在 列表 中 。 像 其 他 操作 符 
一 样 ，in 和 not ip 用 在 表达 式 中 ， 连 接 两 个 值 : 一 个 要 在 列表 中 碍 找 的 
值 ， 以 及 竺 得 找 的 列表 。 这 些 表达 式 将 求 值 为 布尔 值 。 在 交互 式 环境 中 
输入 以 下 代码 : 





>>> 'howdy' in ['hello', 'hi', '‘howdy', 'heyas'] 


True 
>>> spam = ['hello', 'hi', ‘howdy’, 'heyas' ] 


>>> 'cat' in spam 


False 
>>> "howdy' not in spam 


False 
>>> 'cat' not in spam 


True 





Glan, PNR LA MA DEWET, RMB ASAE 
在 宠物 列表 中 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 
为 myPets.py: 


myPets = ['Zophie', 'Pooka', 'Fat-tail'] 
print('Enter a pet name:') 


name = input() 
if name not in myPets: 

print('I do not have a pet named ' + name) 
else: 

print(name + ' is my pet.') 





输出 可 能 像 这 样 : 


Enter a pet name : 
Footfoot 


I do not have a pet named Footfoot 





4.2.3 多 重 赋值 技巧 
多 重 赋值 技巧 是 一 种 快捷 方式 ， 让 你 在 一 行 代码 中 ， 用 列表 中 的 值 





为 多 个 变量 赋值 。 所 以 不 必 像 这 样 : 


>>> cat = ['fat', 'black', 'loud'] 


>>> size = cat[@] 


>>> color = cat[1] 


>>> disposition = cat[2] 





而 是 输入 下 面 的 代码 : 





>>> cat = ['fat', 'black', 'loud'] 


>>> size, color, disposition = cat 


变量 的 数目 和 列表 的 长 度 必 须 严格 相等 ， 人 否则 Python 将 给 出 


ValueError: 


>>> cat = ['fat', 'black', 'loud'] 


>>> size, color, disposition, name = cat 


Traceback (most recent call last): 
File "<pyshell#84>", line 1, in <module> 
size, color, disposition, name = cat 
ValueError: need more than 3 values to unpack 





4.3 增强 的 赋值 操作 


在 对 变量 赋值 时 ， 常 常会 用 到 变量 本 映 。 例 如 ， 将 42 赋 给 变量 spam 
之 后 ， 用 下 面 的 代码 让 spam 的 值 增加 1: 








>>> Spam = 42 


>>> Spam = spam + 1 


>>> spam 


作为 一 种 快捷 方式 ， 可 以 用 增强 的 赋值 操作 符 += 来 完成 同样 的 事 : 


>>> Spam = 42 


>>> Spam += 1 


>>> Spam 





针对 +、-、*、/ 和 % 操 作 符 ， 都 有 增强 的 赋值 操作 符 ， 如 表 4-1 所 


表 4-1 增强 的 赋值 操作 符 


增强 的 赋值 语 等 价 的 赋值 语 


























spam *= 1 spam = spam * 1 


+= fil Te eB eA, HATA IR 








>>> spam = ‘Hello’ 
>>> spam += ' world!' 
>>> spam 


"Hello world!' 


>>> bacon = ['Zophie' ] 


>>> bacon *= 3 


>>> bacon 


['Zophie', 'Zophie', ‘Zophie' | 





4.4 方法 
方法 和 函数 是 一 回 事 ， 只 是 它 是 调用 在 一 个 值 上 。 例 如 ， 如 果 一 个 











列表 值 存 储 在 spam 中 ， 你 可 以 在 这 个 列表 上 调用 index0 列 表 方 法 〈 稍 后 
我 会 解释 ) ， 就 像 spam.index(hello) 一 样 。 方 法 部 分 跟 在 这 个 值 后 面 ， 
LL—*S 8) Aa Be 


每 种 数据 类 型 都 有 它 目 己 的 一 组 方法 。 例 如 ， 列 表 数 据 类 型 有 一 些 
有 用 的 方法 ， 用 来 得 找 、 添 加 、 删 除 或 操作 列表 中 的 值 。 


4.4.1 用 index() 方 法 在 列表 中 查找 值 
列表 值 有 一 个 index0) 方 法 ， 可 以 传 入 一 个 值 ， 如 果 该 值 存在 于 列表 


中 ， 束 返回 它 的 下 标 。 如 果 该 值 不 在 列表 中 ，Python 就 报 ValueError。 
在 交互 式 环境 中 输入 以 下 代码 : 














>>> spam = ['hello', 'hi', ‘howdy’, 'heyas'] 


>>> spam.index('"hello') 


0 
>>> spam.index('heyas') 


3 
>>> spam.index('howdy howdy howdy' ) 


Traceback (most recent call last): 
File "<pyshell#31>", line 1, in <module> 
spam. index('howdy howdy howdy ) 
ValueError: ‘howdy howdy howdy' is not in list 








如 果 列 表 中 存在 重复 的 值 ， 就 返回 它 第 一 次 出 现 的 下 标 。 在 交互 式 








环境 中 输入 以 下 代码 ， 注 意 index() 返 回 1， 而 不 是 3: 





>>> spam = ['Zophie', 'Pooka', 'Fat-tail', 'Pooka'] 


>>> spam. index('Pooka’' ) 





4.4.2 用 append() 和 insert() 方 法 在 列表 中 添加 值 


要 在 列表 中 添加 新 值 ， 就 使 用 append0 和 insert0) 方 法 。 在 交互 式 环 
境 中 输入 以 下 代码 ， 对 变量 spam 中 的 列表 调用 append0) 方 法 : 


>>> spam = ['cat', 'dog', 'bat'] 


>>> Spam.append('moose' ) 


['cat', 'dog', 'bat', 'moose'] 





前 面 的 append0 方 法 调用 ， 将 参数 添加 到 列表 末尾 。insert(0) 方 法 可 
以 在 列表 任意 下 标 处 插入 一 个 值 。insert() 方 法 的 第 一 个 参数 是 新 值 的 下 
标 ， 第 二 个 参数 是 要 插入 的 新 值 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> spam = ['cat', 'dog', 'bat'] 


>>> Spam.insert(1, ‘chicken’ ) 


['cat', ‘chicken', 'dog', ‘bat'] 





请 注意 ， 代 码 是 spam.append('moose') 和 spam.insert(1, 'chicken'), 而 
不 是 spam = spam.append('moose') 和 spam = spam.insert(1, 'chicken')。 
append() 和 insert() 都 不 会 将 spam 的 新 值 作为 其 返回 值 〈 实 际 上 ，append0) 
和 insert() 的 返回 值 是 None， 所 以 你 肯定 不 希望 将 它 保存 为 变量 的 新 
值 )。 但 是 ， 列 表 被 “当场 ”修改 了 。 在 4.6.1 节 “可 变 和 不 变数 据 类 
型 ”中 ， 将 更 详细 地 介绍 当场 修改 一 个 列表 。 


方法 属于 单个 数据 类 型 。append() 和 insert() 方 法 是 列表 方法 ， 只 能 
在 列表 上 调用 ， 不 能 在 其 他 值 上 调用 ， 例 如 字符 串 和 整 型 。 在 交互 式 环 
境 中 输入 以 下 代码 ， 注 意 产生 的 AttributeError 错 误 信 息 : 








>>> eggs = ‘hello' 


>>> eggs.append( ‘world’ ) 


Traceback (most recent call last): 
File "<pyshell#19>", line 1, in <module> 
eggs.append('‘world' ) 


AttributeError: ‘str' object has no attribute ‘append’ 
>>> bacon = 42 


>>> bacon.insert(1, 'world') 


Traceback (most recent call last): 
File "<pyshell#22>", line 1, in <module> 
bacon.insert(1, ‘world') 
AttributeError: ‘int' object has no attribute ‘insert’ 





4.4.3 用 remove() 方 法 从 列表 中 删除 值 


给 remove() 方 法 传 入 一 个 值 ， 它 将 从 被 调用 的 列表 中 删除 。 在 交互 
式 环境 中 输入 以 下 代码 : 





>>> spam = ['cat', 'bat', 'rat', 'elephant'] 


>>> spam.remove('bat') 


>>> spam 


['cat', ‘rat', ‘elephant’ ] 





试图 删除 列表 中 不 存在 的 值 ， 将 导致 ValueError 错 误 。 例 如 ， 在 区 
互 式 环境 中 输入 以 下 代码 ， 注 意 显 示 的 错误 : 


>>> spam = ['cat', 'bat', 'rat', "elephant ] 


>>> Spam.remove( ‘chicken’ ) 


Traceback (most recent call last): 
File "<pyshell#11>", line 1, in <module> 
spam.remove('chicken' ) 
ValueError: list.remove(x): x not in list 
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互 式 环境 中 输入 以 下 代码 : 





>>> spam = ['cat', 'bat', ‘rat', 'cat', 'hat', ‘cat'] 


>>> Sspam.remove('cat' ) 


>>> Spam 





如 果 知 道 想 要 删除 的 值 在 列表 中 的 下 标 ，del 语 句 就 很 好 用 。 如 果 
知道 想 要 从 列表 中 删除 的 值 ，remove() 方 法 就 很 好 用 。 


4.4.4 用 sort() 方 法 将 列表 中 的 值 排序 


数值 的 列表 或 字符 串 的 列表 ， 能 用 sort() 方 法 排序 。 例 如 ， 在 交互 式 
环境 中 输入 以 下 代码 : 





>>> spam = [2, 5, 3.14, 1, -7] 


>>> spam.sort() 


>>> Spam 


[-7，1，2，3.14，5] 
>>> spam = ['ants', 'cats', 'dogs', ‘'badgers', 'elephants'] 


>>> spam.sort() 


>>> Spam 


['ants', 'badgers', ‘cats’, ‘'dogs', ‘elephants’ ] 








也 可 以 指定 reverse 关 键 字 参数 为 True， 让 sort0 按 逆序 排序 。 在 交互 
式 环境 中 输入 以 下 代码 : 





>>> spam.sort(reverse=True) 


>>> Spam 


['elephants', 'dogs', ‘cats', 'badgers', ‘ants'] 











关于 sort() 方 法 ， 你 应 该 注意 3 件 事 。 首 先 ，sort() 方 法 当场 对 列表 排 
序 。 不 要 写 出 spam = spam.sort() 这 样 的 代码 ， 试 图 记录 返回 值 。 


其 次 ， 不 能 对 既 有 数字 又 有 字符 串 值 的 列表 排序 ， 因 为 Python 不 知 
道 如 何 比 较 它 们 。 在 交互 式 环境 中 输入 以 下 代码 ， 注 意 TypeError 错 误 : 














>>> spam = [1, 3, 2, 4, 'Alice', 'Bob'] 


>>> spam.sort() 


Traceback (most recent call last): 
File "<pyshell#70>", line 1, in <module> 
spam.sort() 
TypeError: unorderable types: str() < int() 








第 三 ，sort(0 方 法 对 字符 串 排 序 时 ， 使 用 “ASCI 字 符 顺 序 ”， 而 不 是 
实际 的 字典 顺序 。 这 意味 着 大 写字 母 排 在 小 写字 母 之 前 。 因 此 在 排序 
时 ， 小 写 的 a 在 大 写 的 Z 之 后 。 例 如 ， 在 交互 式 环 境 中 输入 以 下 代码 : 








>>> spam = ['Alice', ‘ants', 'Bob', 'badgers', 'Carol', 'cats'] 


>>> spam.sort() 


>>> Spam 


['Alice', 'Bob', 'Carol', ‘ants', 'badgers', ‘cats' | 








如 果 需 要 按照 普通 的 字典 顺序 来 排序 ， 就 在 sort() 方 法 调用 时 ， 将 关 
键 字 参 数 key 设 置 为 str.lower。 


>>> spam = ['a', 'z' 


>>> spam.sort(key=str. lower) 


>>> Spam 





这 将 导致 sort0) 方 法 将 列表 中 所 有 的 表 项 当成 小 号， 但 实际 上 并 不 会 
改变 它们 在 列表 中 的 值 。 


4.5 例子 程序 : 神奇 8 球 和 列表 


前 一 章 我 们 写 过 神奇 8 球 程序 。 利 用 列表 ， 可 以 写 出 更 优雅 的 版 
本 。 不 是 用 一 些 几 乎 一 样 的 elif 语 句 ， 而 是 创建 一 个 列表 ， 针 对 它 编 
码 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 





magic8Ball2.py: 


import random 





messages = ['It is certain’, 
"It is decidedly so’, 
"Yes definitely’, 
"Reply hazy try again’, 
"Ask again later’, 
"Concentrate and ask again’, 


"My reply is no’, 
"Outlook not so good', 
"Very doubtful’ ] 


print(messages[random.randint(@, len(messages) - 1)]) 





Python "F 4A EU Bl yh 


在 大 多 数 情况 下 ， 





























代码 行 的 缩 进 告诉 Python 它 属于 哪 一 个 代码 块 。 但 是 ， 这 个 规则 有 几 个 


























例外 。 例 如 在 源 代码 文件 中 ， 列 表 实 际 上 可 以 跨越 几 行 。 这 些 行 的 缩 进 并 不 重要 。Python 知 


道 ， 没 有 看 到 结束 方 括号 ， 列 表 就 没有 结束 。 例 如 ， 代 码 可 以 看 起 来 像 这 样 : 





spam = ['apples', 
‘oranges’, 

















"bananas", 


'cats'] 


print(spam) 





当然 ， 从 实践 的 4 

















度 来 说 ， 大 部 分 人 会 利用 Python 的 行为 ， 让 他 们 的 列表 看 起 来 漂亮 且 可 





读 ， 就 像 神奇 8 球 程序 中 的 消息 列表 一 样 。 








也 可 以 在 行 末 使 用 续 行 字符 \， 将 一 条 指令 写成 多 行 。 可 以 把 \ 看 成 是 “这 条 指令 在 下 一 行 
继续 "。'\ 续 行 字符 之 后 的 一 行 中 ， 缩 进 并 不 重要 。 例 如 ， 下 面 是 有 效 的 Python 代码; 






































print('Four score and seven ' + \ 
"years ago...') 


























如 果 和 希望 将 一 长 行 的 Python 代码 安排 得 更 为 可 读 ， 这 些 技巧 是 有 用 的 。 
运行 这 个 程序 ， 你 会 看 到 它 与 前 面 的 magic8Ball.py 程 序 效果 一 样 。 


请 注意 用 作 messages 下 标的 表达 式 : random.randint(0, len(messages) 
- 1)。 这 产生 了 一 个 随机 数 作 为 下 标 ， 不 论 messages 的 大 小 是 多 少 。 也 就 
是 说 ， 你 会 得 到 0 与 len(messages) - 1 之 间 的 一 个 随机 数 。 这 种 方法 的 好 
处 在 于 ， 很 容易 癌 列 表 添 加 或 删除 字符 串 ， 而 不 必 改 变 其 他 行 的 代码 。 
如 采 稍 后 更 新 代码 ， 就 可 以 少 改 几 行 代码 ， 引 入 缺陷 的 可 能 性 也 更 小 。 


4.6 类 似 列表 的 类 型 :字符 串 和 元 组 


列表 并 不 是 唯一 表示 序列 值 的 数据 类 型 。 例 如 ， 字 符 串 和 列表 实际 
上 很 相似 ， 只 要 你 认为 字符 串 是 蛙 个 文本 字符 的 列表 。 对 列表 的 许多 操 
作 ， 也 可 以 作用 于 字符 串 : 按 下 标 取 值 、 切 片 、 用 于 for 循 环 、 用 于 
len0， 以 及 用 于 ip 和 not in 操作 符 。 为 了 看 到 这 种 效果 ， 在 交互 式 环境 中 
输入 以 下 代码 : 

















>>> name = 'Zophie' 


>>> name[6] 


EZA 
>>> name[-2] 


i 
>>> name[@:4] 


"Zoph' 
>>> 'Zo' in name 


True 
>>> 'z" in name 


False 
>>> 'p 


not in name 


False 
>>> for i in name: 


print('* * * '+i+ ' * * *") 


EOE EZ E ok 
米 米 米 QO* x* * 
Pe ree, o a 
x * * h * * * 
x k k j k*k 
x * * @ * * * 





4.6.1 可 变 和 不 可 变数 据 类 型 


但 列表 和 字符 串 在 一 个 重要 的 方面 是 不 同 的 。 列 表 是 “可 变 的 ”数据 
类 型 ， 它 的 值 可 以 添加 、 删 除 或 改变 。 但 是 ， 字 符 串 是 “不 可 变 的 ”"， 它 
不 能 被 更 改 。 尝 试 对 字符 串 中 的 一 个 字符 重新 赋值 ， 将 导致 TypeError 错 
误 。 在 交互 式 环境 中 输入 以 下 代码 ， 你 就 会 看 到 : 








>>> name = 'Zophie a cat' 


>>> name[7] = ‘the’ 


Traceback (most recent call last): 
File "<pyshell#50>", line 1, in <module> 
name[7] = ‘the’ 
TypeError: 'str' object does not support item assignment 





“改变 ”一 个 字符 串 的 正确 方式 ， 是 使 用 切片 和 连接 。 构 造 一 个 “新 


A i 从 老 的 字符 串 那 里 复制 一 些 部 分 。 在 交互 式 环境 中 输入 以 
下 代码 : 


>>> name = 'Zophie a cat' 


>>> newName = name[6:7] + 'the' + name[8:12] 


"Zophie a cat' 
>>> newName 


"Zophie the cat' 








我 们 用 [0:7] 和 [8:12] 来 指 那些 不 想 蔡 换 的 字符 。 请 注意 ， 原 来 
的 'Zophie a cat 字 符 串 没有 被 修改 ， 因 为 字符 串 是 不 可 变 的 。 尽 管 列 表 
值 是 可 变 的 ， 但 下 面 代码 中 的 第 二 行 并 没有 修改 列表 eggs: 





>>> eggs = [1, 2, 3] 


>>> eggs = [4, 5, 6] 


>>> eggs 


[4, 5, 6] 








这 里 eggs 中 的 列表 值 并 没有 改变 ， 而 是 整个 新 的 不 同 的 列表 值 ([4， 
5, 6])， 履 写 了 老 的 列表 值 。 如 图 4-2 所 示 。 





图 4-2 当 eggs = [4, 5, 6] 被 执行 时 ，eggs 的 内 容 被 新 的 列表 值 取代 





人 


>>> eggs = [1, 2, 3] 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


[4, 


del eggs[2] 


del eggs[1] 


del eggs[@] 


eggs.append(4) 


eggs.append(5) 


eggs.append(6) 


eggs 





在 第 一 个 例子 中 ，eggs 最 后 的 列表 值 与 它 开始 的 列表 值 是 一 样 的 。 
只 是 这 个 列表 被 改变 7 了， 而 不 是 被 履 写 。 图 4-3 展 示 了 前 面 交 互 式 脚 本 
的 例子 中 ， 前 7 行 代码 所 做 的 7 次 改动 。 








图 4-3 del 语 句 和 append() 方 法 当场 修改 了 同一 个 列表 值 


改变 一 个 可 变数 据 类 型 的 值 〈《 就 像 前 面 例子 中 del 语 名 和 append() 方 
人 ee ee 


区 分 可 变 与 不 可 变 类 型 ， 似 乎 没有 什么 意义 ， 但 4.7.1 节 “传递 引 
用 ”将 解释 ， 使 用 可 变 参数 和 不 可 变 参 数 调用 函数 时 产生 的 不 同行 为 。 
首先 ， 让 我 们 来 看 看 元 组 数据 类 型 ， 它 是 列表 数据 类 型 的 不 可 变形 式 。 
4.6.2 元 组 数据 类 型 

除了 两 个 方面 , “元 组 ”数据 类 型 几乎 与 列表 数据 类 型 一 样 。 首 先 ， 


元 组 输入 时 用 圆 括号 0， 而 不 是 用 方 括号 D。 例 如 ， 在 交互 式 环境 中 输 
入 以 下 代码 : 


>>> eggs = ('hello', 42, @.5) 





>>> eggs[@] 


"hello' 
>>> eggs[1:3] 


(42, @.5) 
>>> len(eggs) 








但 元 组 与 列表 的 主要 区 别 还 在 于 ， 元 组 像 字 符 串 一 样 ， 是 不 可 变 
的 。 元 组 不 能 让 它们 的 值 被 修改 、 添 加 或 删除 。 在 交互 式 环境 中 输入 以 
下 代码 ， 注 意 TypeError 出 错 信 息 : 





>>> eggs = ('hello', 42, @.5) 


>>> eggs[1] = 99 


Traceback (most recent call last): 
File "<pyshell#5>", line 1, in <module> 
eggs[1] = 99 
TypeError: 'tuple' object does not support item assignment 





如 果 元 组 中 只 有 一 个 值 ， 你 可 以 在 括号 内 该 值 的 后 面 跟 上 一 个 去 
写 ， 表 明 这 种 情况 。 耕 则 ，Python 将 认为 ， 你 只 是 在 一 个 普通 括 写 内 输 
入 了 一 个 值 。 喜 号 告诉 Python， 这 是 一 个 元 组 〈 不 像 其 他 编程 语言 ， 
Python 接受 列表 或 元 组 中 最 后 表 项 后 面 跟 的 逗号 ) 。 在 交互 式 环境 中 ， 
输入 以 下 的 type0 函 数 调用 ， 看 看 它们 的 区 别 : 








>>> type(('hello',)) 


<class 'tuple'> 
>>> type(('hello')) 


<class 'str'> 





你 可 以 用 元 组 告诉 所 有 读 代码 的 人 ， 你 不 打算 改变 这 个 序列 的 值 。 
如 果 需 要 一 个 永远 不 会 改变 的 值 的 序列 ， 就 使 用 元 组 。 使 用 元 组 而 不 是 
列表 的 第 二 个 好 处 在 于 ， 因 为 它们 是 不 可 变 的 ， 它 们 的 内 容 不 会 变化 ， 
Python 可 以 实现 一 些 优化 ， 让 使 用 元 组 的 代码 比 使 用 列表 的 代码 更 快 。 


4.6.3 Hlist()#ll tuple() A Bik E fh 2K 

正如 str(42) 将 返回 42'， 即 整数 42 的 字符 串 表 示 形 式 ， 函 数 list0 和 
tuple() 将 返回 传递 给 它们 的 值 的 列表 和 元 组 版 本 。 在 交互 式 环境 中 输入 
以 下 代码 ， 注 意 返 回 值 与 传 入 值 是 不 同 的 数据 类 型 


>>> tuple(['cat', ‘dog’, 5]) 


('cat', 'dog', 5) 
>>> list(('cat', ‘dog’, 5)) 


['cat', ‘dog’, 5] 
>>> list('hello') 





OUR is 22 TCA ELA ARRAS, PE CZAR RIM UAE AR TT NE 


4.7 引用 


We i a ae 
下 代码 : 


>>> Spam = 42 


>>> Cheese = Spam 


>>> spam = 100 


>>> Spam 


100 
>>> cheese 





你 将 42 赋 给 spam 变 量 ， 然 后 拷贝 spam 中 的 值 ， 将 它 赋 给 变量 





cheese。 当 稍 后 将 spam 中 的 值 改 变 为 100 时 ， 这 不 会 影响 cheese 中 的 值 。 
这 是 因为 spam 和 cheese 是 不 同 的 变量 ， 保 存 了 不 同 的 值 。 


但 列表 不 是 这 样 的 。 当 你 将 列表 赋 给 一 个 变量 时 ， 实 际 上 是 将 列表 
的 “引用 ” 赋 给 了 该 变量 。 引 用 是 一 个 值 ， 指 向 某 些 数据 。 列 表 引 用 是 指 
同一 个 列表 的 值 。 这 里 有 一 些 代码 ， 让 这 个 概念 更 容易 理解 。 在 交互 式 
环境 中 输入 以 下 代码 : 











@ >>> spam = [6，1，2，3， 


@ >>> cheese = spam 


© >>> cheese[1] = 'Hello!' 


>>> Spam 


[@, ‘Hello!', 
>>> cheese 


[@, 'Hello!', 





这 可 能 让 你 感到 奇怪 。 代 码 只 改变 了 cheese 列 表 ， 但 似乎 cheese 和 
spam 列 表 同 时 发 生 了 改变 。 


当 创 建 列表 时 @， 你 将 对 它 的 引用 赋 给 了 变量 。 但 下 一 行 @ 只 是 将 
spam 中 的 列表 引用 拷贝 到 cheese， 而 不 是 列表 值 本 身 。 这 意味 着 存储 在 
spam 和 和 cheese 中 的 值 ， 现 在 指 同 了 同一 个 列表 。 抵 下 只 有 一 个 列表 ， 
为 列表 本 号 实际 从 未 复制 。 所 以 当 你 修改 cheese 变 量 的 第 一 个 元 素 时 














合 ， 也 修改 了 spam 指 向 的 同一 个 列表 。 


记 住 ， 变 量 就 像 包 含 着 值 的 合子。 本章 前 面 的 图 显示 列表 在 盒子 
中 ， 这 并 不 准确 ， 因 为 列表 变量 实际 上 没有 包含 列表 ， 而 是 包含 了 对 列 
表 的 “引用 ”( 这 些 引 用 包含 一 些 ID 数 字 ，Python 在 内 部 使 用 这 些 ID， 但 
是 你 可 以 忽略 ) 。 利 用 盒子 作为 变量 的 隐喻 ， 图 4-4 展 示 了 列表 被 赋 给 
spam 变 量 时 发 生 的 情形 。 
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图 4-4 spam = [0, 1, 2, 3, 4, 5] 保存 了 对 列表 的 引用 ， 而 非 实际 列表 


然后 ， 在 图 4-5 中 ，spam 中 的 引用 被 复制 给 cheese。 只 有 新 的 引用 被 
one 而 非 新 的 列表 。 请 注意 ， 两 个 引用 都 指向 同一 
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图 4-5 spam = cheese 复 制 了 引用 ， 而 非 列表 


当 你 改变 cheese 指 向 的 列表 时 ，spam 指 向 的 列表 也 发 生 了 改变 ， 
为 cheese 和 spam 都 指 回 同一 个 列表 ， 如 图 4-6 所 示 。 
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图 4-6 cheese[1] = 'Hello! 修 改 了 两 个 变量 指向 的 列表 


变量 包含 对 列表 值 的 引用 ， 而 不 是 列表 值 本 身 。 但 对 于 字符 串 和 整 
数值 ， 变 量 就 包含 了 字符 串 或 整数 值 。 在 变量 必须 保存 可 变数 据 类 型 的 
值 时 ， 例 如 列表 或 字典 ，Python 束 使 用 引用 。 对 于 不 可 变 的 数据 类 型 的 
值 ， 例 如 字符 串 、 整 型 或 元 组 ，Python 变 量 就 保存 值 本 身 。 


虽然 Python 变量 在 技术 上 包含 了 对 列表 或 字典 值 的 引用 ， 但 人 们 通 
常 随意 地 说 ， 该 变量 包含 了 列表 或 字典 。 


4.7.1 传递 引用 


要 理解 参数 如 何 传递 给 函数 ， 引 用 融 特 别 重 要 。 当 函数 被 调用 时 ， 
参数 的 值 被 复制 给 变 元 。 对 于 列表 “以 及 字典 ， 我 将 在 下 一 章 中 讨 
论 ) ， 这 意味 着 变 元 得 到 的 是 引用 的 揽 贝 。 要 看 看 这 导致 的 后 果 ， 请 打 
开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 


passingReference.py: 


def eggs(someParameter) : 
someParameter.append( ‘Hello’ ) 

















spam = [1, 2, 3] 
eggs(spam) 
print(spam) 





请 注意 ， 当 eggs0 被 调用 时 ， 没 有 使 用 返回 值 来 为 pam 赋 新 值 。 相 
反 ， 它 直接 当场 修改 了 该 列表 。 在 运行 时 ， 该 程序 产生 输出 如 下 : 





[1, 2, 3, ‘Hello'] 





尽管 spam 和 someParameter 包 含 了 不 同 的 引用 ， 但 它们 都 指 同 相同 
的 列表 。 这 就 是 为 什么 函数 内 的 append('Hello') 方 法 调用 在 函数 调用 返回 





后 ， 仍 然 会 对 该 列表 产生 影响 。 


请 记 住 这 种 行为 : 如果 忘 了 Python 处 理 列表 和 字典 变量 时 采用 这 种 
方式 ， 可 能 会 导致 令 人 困惑 的 缺陷 。 





4.7.2 copy 模 块 的 copy0 站 和 deepcopy0 函 数 


在 处 理 列 表 和 字典 时 ， 尽 管 传 递 引 用 第 党 是 最 方便 的 方法 ， 但 如 果 
函数 修改 了 传 入 的 列表 或 字典 ， 你 可 能 不 希望 这 些 变 动 影响 原来 的 列表 
或 字典 。 要 做 到 这 一 点 ，Python 提 供 了 名 为 copy 的 模块 ， 其 中 包含 
copyO 和 deepcopy0O 函 数 。 第 一 个 函数 copy.copyO0， 可 以 用 来 复制 列表 或 
字典 这 样 的 可 变 值 ， 而 不 只 是 复制 引用 。 在 交互 式 环境 中 输入 以 下 代 
码 : 

















>>> import copy 


>>> spam = ['A', 'B', 'C', 'D'] 


>>> cheese = copy.copy(spam) 


>>> cheese[1] = 42 


>>> Spam 


['A', "B', "Gy 'D'] 
>>> cheese 








现在 spam 和 cheese 变 量 指向 独立 的 列表 ， 这 就 是 为 什么 当 你 将 42 赋 





给 下 标 7 时 ， 只 有 cheese 中 的 列表 被 改变 。 在 图 4-7 中 可 以 看 到 ， 两 个 变 
量 的 引用 了 D 数 字 不 再 一 样 ， 因 为 它们 指向 了 独立 的 列表 。 
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图 4-7 cheese = copy.copy(spam) 创 建 了 第 二 个 列表 ， 能 独立 于 第 一 个 列表 修改 


如 打 要 复制 的 列表 中 包含 了 列表 ， 那 束 使 用 copy.deepcopy0 函 数 来 
代 瞧 。deepcopy0 函 数 将 同时 复制 它们 内 部 的 列表 。 





4.8 小 结 


列表 是 有 用 的 数据 类 型 ， 因 为 它们 让 你 写 代 码 处 理 一 组 可 以 修改 的 
值 ， 同 时 仅 用 一 个 变量 。 在 本 书后 面 的 章节 中 ， 你 会 看 到 一 些 程序 利用 
列表 来 完成 工作 。 没 有 列表 ， 这 些 工作 很 困难 ， 甚 至 不 可 能 完成 。 


列表 是 可 变 的 ， 这 意味 着 它们 的 内 容 可 以 改变 。 元 组 和 字符 串 虽 然 
在 某 些 方面 像 列表 ， 却 是 不 可 变 的 ， 不 能 被 修改 。 包 含 一 个 元 组 或 字符 
串 的 变量 ， 可 以 被 一 个 新 的 元 组 或 字符 串 履 写 ， 但 这 和 现场 修改 原来 的 
值 不 是 一 回 事 ， 不 像 append0 和 remove() 方 法 在 列表 上 的 效果 。 


变量 不 直接 保存 列表 值 ， 它 们 保存 对 列表 的 “引用 ”。 在 复制 变量 或 
将 列表 作为 函数 调用 的 参数 时 ， 这 一 点 很 重要 。 因 为 被 复制 的 只 是 列表 
引用 ， 所 以 要 注意 ， 对 该 列表 的 所 有 改动 都 可 能 影响 到 程序 中 的 其 他 变 
量 。 如 果 需 要 对 一 个 变量 中 的 列表 修改 ， 同 时 不 修改 原来 的 列表 ， 束 可 
以 用 copy0 或 deepcopy0)。 


























4.9 习题 
1. HAR? 


2. 如 何 将 hello' 赋 给 列表 的 第 三 个 值 ， 而 列表 保存 在 名 为 spam 的 变 
量 中 ? 《假定 变量 包含 [2, 4, 6, 8, 10]) 。 


对 接 下 来 的 3 个 问题 ， 假 定 spam 包 含 列表 ['a', 'b', 'c, 'd']. 

3. spam[int('3'* 2) / 11] 求 值 为 多 少 ? 

4. spam[-1] 求 值 为 多 少 ? 

5. spam[:2] 求 值 为 多 少 ? 

对 接 下 来 的 3 个 问题 。 假 定 bacon 包 含 列表 [3.14, ‘cat’, 11, 'cat', 


True]. 





6. bacon.index('cat") 求 值 为 多 少 ? 

7. bacon.append(99) 让 bacon 中 的 列表 值 变 成 什么 样 ? 

8. bacon.remove('cat") 让 bacon 中 的 列表 时 变 成 什么 样 ? 

9. 列表 连接 和 复制 的 操作 符 是 什么 ? 

10. append() 和 insert() 列 表 方 法 之 间 的 区 别 是 什么 ? 

11.， 从 列表 中 删除 值 有 哪 两 种 方法 ? 

12. 请 说 出 列表 值 和 字符 串 的 几 点 相似 之 处 。 

13. 列表 和 元 组 之 间 的 区 别 是 什么 ? 

14. 如 果 元 组 中 只 有 一 个 整数 值 422， 如 何 输入 该 元 组 ? 

15. 如 何 从 列表 值得 到 元 组 形式 ?如 何 从 元 组 值得 到 列表 形式 ? 
16. “包含 ”列表 的 变量 ， 实 际 上 并 未 真 地 直接 包含 列表 。 它 们 包含 





17. copy.copy() 和 copy.deepcopy() 之 间 的 区 别 是 什么 ? 
4.10 实践 项 目 

作为 实践 ， 编 程 完成 下 列 任务 。 
4.10.1 去 号 代码 

假定 有 下 面 这 样 的 列表 : 


spam = ['apples', 'bananas', 'tofu', 'cats'] 





编写 一 个 水 数 ， 它 以 一 个 列表 值 作为 参数 ， 返 回 一 个 字符 串 。 该 字 
符 串 包含 所 有 表 项 ， 表 项 之 间 以 去 号 和 空格 分 隔 ， 并 在 最 后 一 个 表 项 之 
前 插入 and。 例 如 ， 将 前 面 的 Spam 列 表 传 递 给 函数 ， 将 返回 'apples， 
bananas, tofu, and cats'。 但 你 的 函数 应 该 能 够 处 理 传 递 给 它 的 任何 列 
HK 


4.10.2 字符 图 网 格 


假定 有 一 个 列表 的 列表 ， 内 层 列表 的 每 个 值 都 是 包含 一 个 字符 的 字 
符 串 ， 像 这 样 





grid = 


le kha Kate as Os Ra ag: SN 
-O000000-:. 
we bv bV bV vV bV: L L bL 
-O000000-. 
EELCO 
b b vV vV bV bV bV Lu bv 
O 
b b bV bV è bV ê bV è Lb L bv 
O 


pO 


你 可 以 认为 grid[x]J[y] 古 一 幅 “ 图 ”在 x*、y 坐 标 处 的 字符 ， 该 图 由 文本 
字符 组 成 。 原 点 (0, 0) 在 左上 角 ， 向 右 x 坐标 增加 ， 向 下 y 坐 标 增 加 。 


复制 前 面 的 网 格 值 ， 编 写 代 码 用 它 打印 出 图 像 。 





..00.00.. 
. 0000000. 
. 0000000. 
. . 00000. . 





UN ig (EFA REE”, FENE grido], *&Jagrid(1][0], 3A grid[2]0], VALLASHE, EF] 
grid[8][0]。 这 就 完成 第 一 行 ， 所 以 接 下 来 打印 换行 。 然 后 程序 将 打印 出 grid[0][1]， 然 后 grid[1] 
[1]， 然 后 grid[2][1]， 以 此 类 推 。 程 序 最 后 将 打印 出 grid[8][5]。 


而 且 ， 如 果 你 不 希望 在 每 次 printO 调 用 后 都 自动 打印 换行 ， 记 得 问 
print() 传 递 end 关 键 字 参数 。 























第 5 章 ”字典 和 结构 化 数据 


在 本 半 中 ， 我 将 介绍 字典 数据 类 型 ， 它 提供 了 一 种 灵活 的 访问 和 组 
织 数 据 的 方式 。 然 后 ， 结 合 字 典 与 前 一 章 中 关于 列表 的 知识 ， 你 将 学 习 
如 何 创 建 一 个 数据 结构 ， 对 井 字 棋盘 建 模 。 


5.1 字典 数据 类 型 

像 列表 一 样 ，“ 字 典 "是 许多 值 的 集合 。 但 不 像 列表 的 下 标 ， 字 典 的 
索引 可 以 使 用 许多 不 同 数据 类 型 ， 不 只 是 整数 。 字 上 典 的 索引 被 称 
为 键 "， 键 及 其 关联 的 值 称 为 " 键 - 值 " 对 。 


在 代码 中 ， 字 典 输入 时 融 花 括号 全 。 在 交互 式 环 境 中 输入 以 下 代 











>>> myCat = {'size': 'fat', 'color': 'gray', '‘disposition': '‘loud'} 





这 将 一 个 字典 赋 给 myCat 变 量 。 这 个 字典 的 键 
是 'size'、'color 和 "disposition'。 这 些 键 相应 的 值 是 fat、'gray' 和 "oud'。 可 
以 通过 它们 的 键 访 问 这 些 值 : 





>>> myCat['size' ] 


>>> "My cat has ' + myCat['color'] + ' fur.' 


"My cat has gray fur.' 





字典 仍然 可 以 用 整数 值 作为 键 ， 就 像 列表 使 用 整数 值 作为 下 标 一 
样 ， 但 它们 不 必 从 0 开始 ， 可 以 是 任何 数字 。 


>>> spam = {12345: "Luggage Combination’, 42: “The Answer } 





5.1.1 字典 与 列表 


不 像 列 表 ， 字 典 中 的 表 项 是 不 排序 的 。 名 为 spam 的 列表 中 ， 第 一 个 
表 项 是 spam[0]。 但 字典 中 没有 “第 一 个 ” 表 项 。 虽 然 确 定 两 个 列表 是 人 否 相 
同时 ， 表 项 的 顺序 很 重要 ， 但 在 字典 中 ， 键 - 值 对 输入 的 顺序 并 不 重 
要 。 在 交互 式 环 境 中 输入 以 下 代码 : 











>>> spam = ['cats', 'dogs', ‘moose’ ] 


>>> bacon = ['dogs', 'moose', 'cats'] 


>>> Spam == bacon 


False 

>>> eggs = {'name': 'Zophie', 'species': 'cat', 'age': '8'} 
>>> ham = {'species': 'cat', ‘age’: '8', 'name': 'Zophie'} 
>>> eggs == ham 

True 





因为 字典 是 不 排序 的 ， 所 以 不 能 像 列 表 那 样 切片 。 


尝试 访问 字典 中 不 存在 的 键 ， 将 导致 KeyError 出 错 信息 。 这 很 像 列 
表 的 “越界 "IndexError 出 错 信息 。 在 交互 式 环境 中 输入 以 下 代码 ， 并 注 
意 显 示 的 出 错 信息 ， 因 为 没有 'color 键 : 





>>> spam = {'name': 'Zophie', 'age': 7} 


>>> spam['color' ] 


Traceback (most recent call last): 
File "", line 1, in 
spam[ "color | 
KeyError: ‘color' 





尽管 字典 是 不 排序 的 ， 但 可 以 用 任意 值 作为 键 ， 这 一 点 让 你 能 够 用 
强大 的 方式 来 组 织 数 据 。 假 定 你 希望 程序 保存 朋友 生日 的 数据 ， 就 可 以 
使 用 一 个 字典 ， 用 名 字 作 为 键 ， 用 生日 作为 值 。 打 开 一 个 新 的 文件 编辑 
窗口 ， 输 入 以 下 代码 ， 并 保存 为 birthdays.py: 





@ birthdays = {'Alice': ‘Apr 1', "Bob': "Dec 12', ‘Carol’: 'Mar 4'} 


while True: 
print('Enter a name: (blank to quit)') 
name = input() 
if name == '': 
break 


if name in birthdays: 


print(birthdays[name] + ' is the birthday of ' 


+ name) 
else: 


print('I do not have birthday information for ' 
print('What is their birthday?') 

bday = input() 

birthdays[name] = bday 

print('Birthday database updated. ') 


+ name) 





你 创建 了 一 个 初始 的 字典 ， 将 它 保存 在 birthdays 中 @@。 用 in 关键 
字 ， 可 以 看 看 输入 的 名 字 是 否 作为 键 存在 于 字典 中 信 ， 就 像 但 看 列表 一 
样 。 如 果 该 名 字 在 字典 中 ， 你 可 以 用 方 括号 访问 关联 的 值 人 @。 如 果 不 
在 ， 你 可 以 用 同样 的 方 括号 语法 和 赋值 操作 符 添 加 它 @。 


运行 这 个 程序 ， 结 果 看 起 来 如 下 所 示 : 





Enter a name: (blank to quit) 
Alice 


Apr 1 is the birthday of Alice 
Enter a name: (blank to quit) 
Eve 


I do not have birthday information for Eve 
What is their birthday? 
Dec 5 


Birthday database updated. 
Enter a name: (blank to quit) 
Eve 


Dec 5 is the birthday of Eve 
Enter a name: (blank to quit) 





当然 ， 在 程序 终止 时 ， 你 在 这 个 程序 中 输入 的 所 有 数据 都 丢失 了 。 
在 第 8 章 中 ， 你 将 学 习 如 何 将 数据 保存 在 硬盘 的 文件 中 。 





5.1.2 keys(0、values0 和 items(0) 方 法 


有 3 个 字典 方法 ， 它 们 将 返回 类 似 列表 的 值 ， 分 别 对 应 于 字典 的 
键 、 值 和 键 - 值 对 : keysO0、values0 和 items(0)。 这 些 方法 返回 的 值 不 是 真 
正 的 列表 ， 它 们 不 能 被 修改 ， 没 有 append0) 方 法 。 但 这 些 数 据 类 型 (分 
别 是 dict_ keys、dict_values 和 dict_items) 可 以 用 于 for 循 环 。 为 了 看 看 这 
些 方 法 的 工作 原理 ， 请 在 交互 式 环境 中 输入 以 下 代码 : 





>>> spam = {'color': 'red', 'age': 42} 


>>> for v in spam.values(): 


print(v) 








XE, for fh Aish T spam JRA AEM. fort th Ay LATER BE 


个 键 ， 或 者 键 - 值 对 : 


>>> for k in spam.keys(): 


print(k) 


color 
age 
>>> for i in spam.items(): 


print(i) 


('color', 'red') 
('age', 42) 





利用 keys(0、values0 和 items0) 方 法 ， 循 环 分 别 可 以 迭代 键 、 值 或 键 - 
值 对 。 请 注意 ，items0) 方 法 返回 的 dict_items 值 中 ， 包 含 的 是 键 和 值 的 元 
组 。 





如 果 和 希望 通过 这 些 方 法 得 到 一 个 真正 的 列表 ， 就 把 类 似 列 表 的 返回 
值 传递 给 list 函 数 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> spam = {'color': 'red', 'age': 42} 


>>> spam. keys() 


dict_keys(['color', 'age']) 
>>> list(spam.keys()) 


['color', ‘age'] 





list(spam.keys()) 代 码 行 接 受 keys0 〇 函数 返回 的 dict_keys 值 ， 并 传递 给 
list()。 然 后 返回 一 个 列表 ， 即 ['color', 'age']。 


也 可 以 利用 多 重 赋值 的 技巧 ， 在 for 循 环 中 将 键 和 值 赋 给 不 同 的 变 
量 。 在 交互 式 环 境 中 输入 以 下 代码 : 





>>> spam = {'color': 'red', 'age': 42} 


>>> for k, v in spam.items(): 


print('Key: ' + k + ' Value: ' + str(v)) 


Key: age Value: 42 
Key: color Value: red 











5.1.3 检查 字典 中 是 人 否 存在 键 或 值 


回忆 一 下 ， 前 一 章 提 到 ，in 和 not ip 操作 符 可 以 检查 值 是 否 存在 于 列 
表 中 。 也 可 以 利用 这 些 操作 符 ， 检 查 某 个 键 或 值 是 否 存在 于 字典 中 。 在 
交互 式 环境 中 输入 以 下 代码 ; 











>>> spam = {'name': 'Zophie', 'age': 7} 


>>> 'name' in spam.keys() 


True 
>>> 'Zophie' in spam.values() 


True 
>>> ‘color’ in spam.keys() 


False 
>>> ‘color’ not in spam.keys() 


True 
>>> ‘color’ in spam 


False 





请 注意 ， 在 前 面 的 例子 中 ，'color' in spam 本 质 上 是 一 个 简写 版 本 。 
相当 于 'color in spam.keys()。 这 种 情况 总 是 对 的 : 如 果 想 要 检查 一 个 值 
是 否 为 字典 中 的 键 ， 束 可 以 用 关键 字 in (或 not in〉， 作 用 于 该 字典 本 


身 。 
5.1.4 get() 方 法 
在 访问 一 个 键 的 值 之 前 ， 检 碍 该 键 是 否 存在 于 字典 中 ， 这 很 肪 烦 。 











好 在 ， 字 典 有 一 个 get(0 方 法 ， 它 有 两 个 参数 : 要 取得 其 值 的 键 ， 以 及 如 
果 该 键 不 存在 时 ， 返 回 的 备用 值 。 


在 交互 式 环 境 中 输入 以 下 代码 : 


>>> picnicItems = {'apples': 5, 'cups': 2} 


>>> 'I am bringing ' + str(picnicItems.get('cups', @)) + ' cups.’ 


"I am bringing 2 cups.’ 
>>> 'I am bringing ' + str(picnicItems.get('eggs', 0)) + ' eggs. ' 


"I am bringing 6 eggs.' 





因为 picnicItems 字 典 中 没有 'egg' 键 ，get0) 方 法 返回 的 默认 值 是 0。 不 
使 用 get0， 代 码 就 会 产生 一 个 错误 消息 ， 束 像 下 面 的 例子 : 





>>> picnicItems = {'apples': 5, 'cups': 2} 


>>> 'I am bringing ' + str(picnicItems['eggs']) + ' eggs.' 


Traceback (most recent call last): 
File "<pyshell#34>", line 1, in 
‘I am bringing ' + str(picnicItems['eggs']) + ' eggs. ' 
KeyError: ‘eggs’ 





5.1.5 setdefault() 77 1% 





你 常常 需要 为 字典 中 某 个 键 设置 一 个 默认 值 ， 当 该 键 没 有 任何 值 时 
使 用 它 。 代 码 看 起 来 像 这 样 : 
spam = {'name': 'Pooka', ‘age’: 5} 


if ‘color' not in spam: 
spam[ 'color'] = ‘black’ 





setdefault(0) 方 法 提供 了 一 种 方式 ， 在 一 行 中 完成 这 件 事 。 传 递 给 该 
方法 的 第 一 个 参数 ， 是 要 检查 的 键 。 第 二 个 参数 ， 是 如 果 该 键 不 存在 时 
要 设置 的 值 。 如 果 该 键 确实 存在 ， 方 法 就 会 返回 键 的 值 。 在 交互 式 环境 
中 输入 以 下 代码 : 














>>> spam = {'name': 'Pooka', 'age': 5} 


>>> spam.setdefault('color', 'black') 


"plack' 


>>> spam 


{'color': 'black', 'age': 5, 'name': ‘Pooka'} 
>>> spam.setdefault('color', '‘white') 


"plack' 
>>> spam 


{'color': 'black', 'age': 5, 'name': ‘Pooka'} 





第 一 次 调用 setdefault0 时 ，spam 变 量 中 的 字典 变 为 {rcolor: ‘black’, 
‘age’: 5, 'name': 'Pooka'}。 该 方法 返回 值 'black'"， 因 为 现在 该 值 被 赋 给 
键 'color'"。 当 spam.setdefault('color', "white') 接 下 来 被 调用 时 ， 该 键 的 
值 “ 没 有 ”被 改变 成 'white'"， 因 为 spam 变 量 已 经 有 名 为 'color' 的 键 。 


setdefault(0) 方 法 是 一 个 很 好 的 快捷 方式 ， 可 以 确保 一 个 键 存在 。 下 
面 有 一 个 小 程序 ， 计 算 一 个 字符 串 中 每 个 字符 出 现 的 次 数 。 打 开 一 个 文 
件 编辑 器 窗口 ， 输 入 以 下 代码 ， 保 存 为 characterCount.py: 





message = ‘It was a bright cold day in April, and the clocks were striking 
count = {} 


for character in message: 
count.setdefault(character, 0) 
count[ character] = count[character] + 1 


print(count) 


| 


程序 循环 迭代 message 字 符 串 中 的 每 个 字符 ， 计 算 每 个 字符 出 现 的 
次 数 。setdefault(0) 方 法 调用 确保 了 键 存 在 于 count 字 典 中 《默认 值 是 
0) ， 这 样 在 执行 count[character] = count[character] + 1 时 ， 就 不 会 殷 出 





KeyError 错 误 。 程 序 运 行 时 ， 输 出 如 下 : 








_ 从 输出 可 以 看 到 ， 小 写字 母 c 出 现 了 3 次 ， 空 格 字 符 出 现 了 13 次 ， 大 
写字 母 A 出 现 了 1 次 。 无 论 message 变 量 中 包含 什么 样 的 字符 串 ， 这 个 程 
序 都 能 工作 ， 即 使 该 字符 串 有 上 百 万 的 字符 ! 





5.2 漂亮 打印 


如 果 程 序 中 导入 pprint 模 块 ， 就 可 以 使 用 pprint() 和 pformat() 函 数 ， 
它们 将 “漂亮 打印 ”一 个 字典 的 字 。 如 果 想 要 字典 中 表 项 的 显示 比 print() 





的 输出 结果 更 和 干净， 这 就 有 用 了 。 修 改 前 面 的 characterCount.py 程 序 ， 
将 它 保存 为 prettyCharacterCount.py。 





import pprint 


message = ‘It was a bright cold day in April, and the clocks were striking 
thirteen. ' 
count = {} 


for character in message: 
count.setdefault(character, 0) 
count[ character] = count[character] + 1 


pprint 


.pprint( 


count) 





一 次 ， 当 程序 运行 时 ， 输 出 看 起 来 更 干净 ， 键 排 过 序 。 


这 





~ 
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如 采 字 和 典 本 身 包 含 仍 套 的 列表 或 字典 ，pprint.pprintO 函 数 束 特 别 有 





如 果 希 望 得 到 漂亮 打印 的 文本 作为 字符 串 ， 而 不 是 显示 在 屏幕 上 ， 
那 就 调用 pprintpformat0。 下 面 两 行 代码 是 等 价 的 ; 





pprint.pprint(someDictionaryValue) 
print (pprint.pformat (someDictionaryValue) ) 





5.3 使 用 数据 结构 对 真实 世界 建 模 





甚至 在 因特网 之 前 ， 人 们 也 有 办 法 与 世界 男 一 边 的 菜 人 下 一 可 国 际 
象棋 。 每 个 棋 手 在 自己 家 里 放 好 一 个 棋盘 ， 然 后 轮流 疝 对 方 寄 出 明 信 
片 ， 描 述 每 一 着 横 。 要 做 到 这 一 点 ， 棋 手 需要 一 种 方法 ， 无 二 义 地 描述 
棋盘 的 状态 ， 以 及 他 们 的 着 法 。 


在 “代数 记 谱 法 ”中 ， 模 盘 空 间 由 一 个 数字 和 字母 坐标 确定 ， 如 图 5- 
1 所 示 。 





图 5-1 代数 记 谱 法 中 棋盘 的 坐标 








棋子 用 字母 表示 : K 表 示 王 ，Q 表 示 后 ，R 表 示 车 ，B 表 示 象 ，N 表 
示 马 。 描 述 一 次 移动 ， 用 棋子 的 字母 和 它 的 目的 地 坐标 。 一 对 这 样 的 移 
动 表示 一 个 回合 “〈 白 方 先 下 ) ， 例 如 ， 棋 谱 2. Nf3 Nc6 表 明 在 棋局 的 第 
二 回合 ， 白 方 将 马 移动 到 f3， 黑 方 将 马 移动 到 c6。 


代数 记 谱 法 还 有 更 多 内 容 ， 但 要 点 是 你 可 以 用 它 无 二 义 地 描述 象棋 
游戏 ， 不 需要 站 在 棋盘 前 。 你 的 对 手 甚 至 可 以 在 世界 的 为 一 边 ! 实际 
上 ， 如 果 你 的 记忆 力 很 好 ， 甚 至 不 需要 物理 的 棋具 : 只 需要 阅读 寄 来 的 
棋子 移动 ， 更 新 心里 想 的 棋盘 。 


计算 机 有 很 好 的 记忆 力 。 现 在 计算 机 上 的 程序 ， 很 容易 存储 几 百 万 
个 像 '2. Nf3 Nc6' 这 样 的 字符 串 。 这 就 是 为 什么 计算 机 不 用 物理 棋盘 束 能 
a eee 


这 里 就 可 以 用 到 列表 和 字典 。 可 以 用 它们 对 真实 世界 建 模 ， 例 如 棋 
> 


























5.3.1 井 字 棋盘 


井 字 棋盘 看 起 来 像 一 个 大 的 井 字 符号 〈#) ， 有 9 个 空格 ， 可 以 包含 
X、0 或 空 。 要 用 字典 表示 棋盘 ， 可 以 为 每 个 空格 分 配 一 个 字符 串 键 
如 图 5-2 所 示 。 








'low-L' 





图 5-2 井 字 棋盘 的 空格 和 它们 对 应 的 键 


可 以 用 字符 串 值 来 表示 ， 棋 盘 上 每 个 空格 有 什么 : 'X'"、'O' 或 ''〈 空 
格 字 符 )。 因 此 ， 需 要 存储 9 个 字符 串 。 可 以 用 一 个 字典 来 做 这 事 。 带 
有 键 'top-R' 的 字符 串 表 示 右 上 角 ， 禹 有 键 low-L' 的 字符 串 表示 左下 角 ， 
市 有 键 'mid-M' 的 字符 串 表 示 中 间 ， 以 此 类 推 。 


这 个 字典 就 是 表示 井 字 棋盘 的 数据 结构 。 将 这 个 字典 表示 的 棋盘 保 
存在 名 为 theBoard 的 变量 中 。 打 开 一 个 文件 编辑 器 窗口 ， 输 入 以 下 代 
码 ， 并 保存 为 ticTacToe.py: 


























theBoard = {'top-L': ' ', 'top-M': ' ', ‘top-R': ' ' 
'mid-L': ' ', 'mid-M': ' ', ‘'mid-R': ' ' 
"low-L': ' ', ‘low-M': ' ', ‘low-R': ' '} 


保存 在 theBoard 变 量 中 的 数据 结构 ， 表 示 了 图 5-3 中 的 井 字 棋盘 。 








图 5-3 一 个 空 的 井 字 棋盘 


因为 theBoard 变 量 中 每 个 键 的 值 都 是 单个 空格 字符 ， 所 以 这 个 字典 
HEIRS SE STNA. 如 果 玩 家 X 选 择 了 中 间 的 空格 ， 就 可 以 用 下 
面 这 个 字典 来 表示 棋盘 























theBoard = {'top-L': ' ', ‘'top-M': ' ', 'top-R': ' ‘, 
"mid-L': ' ', 'mid-M': 'X', 'mid-R': ' ', 
'low-L': ' ', ‘low-M': ' ', ‘low-R': ' '} 


ee 


theBoard 变 量 中 的 数据 结构 现在 表示 图 5-4 中 的 井 字 棋盘 。 











图 5-4 第 一 着 


一 个 玩家 O 获 胜 的 棋盘 上 ， 他 将 O 横 贯 棋盘 的 顶部 ， 看 起 来 像 这 











theBoard = {'top-L': 'O', ‘top-M': 'O', ‘top-R': 0 








theBoard 变 量 中 的 数据 结构 现在 表示 图 5-5 中 的 井 字 棋盘 。 


OIOIO 
XIX 












图 5-5 玩家 O 获 胜 


当然 ， 玩 家 只 看 到 打印 在 屏幕 上 的 内 容 ， 而 不 是 变量 的 内 容 。 让 我 
们 创建 一 个 函数 ， 将 棋盘 字典 打印 到 屏幕 上 。 将 下 面 代码 添加 到 
ticTacToe.py《〈 新 代码 是 黑体 的 ) : 








theBoard = {'top-L': ' ', 'top-M': ' ', ‘top-R': ' ‘, 
"mid-L': ' ', 'mid-M': ' ', 'mid-R': ' ', 
"low-L': ' ', ‘low-M': ' ', ‘low-R': ' '} 


def printBoard(board): 


print(board['top-L'] + '|' + board['top-M'] + '|' + board['top-R']) 


print('-+-+-') 


print(board['mid-L'] + '|' + board['mid-M'] + '|' + board['mid-R']) 


print('-+-+-') 


print(board['low-L'] + '|' + board['low-M'] + '|' + board['low-R']) 


printBoard(theBoard) 








运行 这 个 程序 时 ，printBoard() 将 打印 出 空白 井 字 棋盘 。 








printBoard() 函 数 可 以 处 理 传 入 的 任何 井 字 棋 数据 结构 。 尝 试 将 代码 
改 成 以 下 的 样子 : 





theBoard = {'top-L': 'O', 'top-M': 'O', 'top-R': 'O', 'mid-L': 'X', 'mid-M' 


'X', 'mid-R': ' ', 'low-L': ' ', 'low-M': ' ', 'low-R': 'X'} 


def printBoard(board): 


print(board['top-L'] + '|' + board['top-M'] + '|' + board['top-R']) 


print('-+-+-') 


print(board['mid-L'] + '|' + board['mid-M'] + '|' + board['mid-R']) 


print('-+-+-') 


print(board['low-L'] + '|' + board['low-M'] + '|' + board['low-R']) 
printBoard(theBoard) 





现在 运行 该 程序 ， 新 棋盘 将 打印 在 屏幕 上 。 











因为 你 创建 了 一 个 数据 结构 来 表示 井 字 棋盘 ， 编 写 了 printBoard0) 中 
的 代码 来 解释 该 数据 结构 ， 所 以 就 有 了 一 个 程序 ， 对 井 字 棋盘 进行 
了 “ 建 模 *?。 也 可 以 用 不 同 的 方式 组 织 数 据 结构 (例如 ， 使 用 'TOP- 
LEFT' 这 样 的 键 来 代替 'top-L') ， 但 只 要 代码 能 处 理 你 的 数据 结构 ， 就 有 
了 正确 工作 的 程序 。 


例如 ，PprintBoard0 函 数 预 期 井 字 棋 数据 结构 是 一 个 字典 ， 包 含 所 有 
9 个 空格 的 键 。 假 如 传 入 的 字典 缺少 mid-L' 键 ， 程 序 就 不 能 工作 了 。 














oļoļo 
-+-+- 
Traceback (most recent call last): 
File "ticTacToe.py", line 10, in <module> 


printBoard(theBoard) 
File "ticTacToe.py", line 6, in printBoard 
print(board['mid-L'] + '|' + board['mid-M'] + '|' + board['mid-R']) 


KeyError: 'mid-L' 


pO 


现在 让 我 们 添加 代码 ， 人 允许 玩家 输入 他 们 的 着 法 。 修 改 
ticTacToe.py 程 序 如 下 所 示 : 





theBoard = {'top-L': ' ', 'top-M': ' ', 'top-R': ' ', 'mid-L': ' ', 'mid- 


def printBoard(board): 


print(board['top-L'] + '|' + board['top-M'] + '|' + board['top-R']) 

print('-+-+-') 

print(board['mid-L'] + '|' + board['mid-M'] + '|' + board['mid-R']) 

print('-+-+-') 

print(board['low-L'] + '|' + board['low-M'] + '|' + board['low-R']) 
turn = 'X' 


for i in range(9): 


@ printBoard(theBoard) 


print('Turn for ' + turn + '. Move on which space?') 


move = input() 


theBoard[move] = turn 


if turn == 'X': 
turn = '0' 
else: 
turn = 'X' 


printBoard(theBoard) 


| 


新 的 代码 在 每 一 步 新 的 着 法 之 前 ， 打 印 出 棋盘 @， 获 取 当 前 棋 手 的 
着 法 全， 相应 地 更 新 棋盘 @， 然 后 改变 当前 棋 手 @， 进 入 到 下 一 着 。 


运行 该 程序 ， 它 看 起 来 像 这 样 : 











Turn for X. Move on which space? 
mid-M 


Turn for O. Move on which space? 
low-L 


| | 
-十 -十 - 

|x| 
-+-+- 
ol | 


--_snip_-- 


0|0|x 
EEE 
x|x|o 
fue 
o| |x 


Turn for X. Move on which space? 
low-M 


0|0|x 
二 
x|x|o 
MERA 
0|X|X 








这 不 是 一 个 完整 的 井 字 棋 游 戏 (例如 ， 它 并 不 检查 玩家 是 否 获 








胜 ) ， 但 这 已 足够 展示 如 何在 程序 中 使 用 数据 结构 。 
EE 
”如 果 你 很 好 奇 ， 完 整 的 井 字模 程序 的 源 代码 在 网 上 有 介绍 ， 网 址 


z@http://nostarch.com/automatestuff/ 。 


5.3.2 舱 套 的 字典 和 列表 


对 井 字 棋 盘 建 模 相当 简单 : 棋盘 只 需要 一 个 字典 ， 包 含 9 个 键 值 
对 。 当 你 对 复杂 的 事物 建 模 时 ， 可 能 发 现 字 典 和 列表 中 需要 包含 其 他 字 
典 和 列表 。 列 表 适 用 于 包含 一 组 有 序 的 值 ， 字 典 适合 于 包含 关联 的 键 与 
值 。 例 如 ， 下 面 的 程序 使 用 字典 包含 其 他 字典 ， 用 于 记录 谁 为 野餐 带 来 
了 什么 食物 。totalBrought() 函 数 可 以 读 取 这 个 数据 结构 ， 计 算 所 有 客人 
带 来 的 食物 的 总 数 。 














allGuests = {'Alice': {'apples': 5, 'pretzels': 12}, 
"Bob': {'ham sandwiches': 3, 'apples': 2}, 
"Carol': {'cups': 3, ‘apple pies': 1}} 


def totalBrought(guests, item): 
numBrought = @ 
@ for k, v in guests.items(): 
@ numBrought = numBrought + v.get(item, @) 
return numBrought 


print('Number of things being brought: ) 

print(' - Apples ' + str(totalBrought(allGuests, ‘apples'))) 

print(' - Cups ' + str(totalBrought(allGuests, '‘cups'))) 

print(' - Cakes ' + str(totalBrought(allGuests, ‘cakes'))) 

print(' - Ham Sandwiches ' + str(totalBrought(allGuests, ‘ham sandwiches ' 
print(' - Apple Pies ' + str(totalBrought(allGuests, ‘apple pies'))) 





fEtotalBrought()rA AUF, forim guests F WHARA. 在 
这 个 循环 里 ， 客 人 的 名 字 字 符 串 赋 给 k， 他 们 带 来 的 野餐 食物 的 字典 赋 
给 v。 如 果 食 物 参数 是 字典 中 存在 的 键 ， 它 的 值 〈 数 量 ) 就 添加 到 
numBrought 人 @。 如 果 它 不 是 键 ，get() 方 法 就 返回 09， 添加 到 


numBrought. 


该 程序 的 输出 像 这 样 : 








Number of things being brought: 
- Apples 7 

Cups 3 

Cakes 6 

Ham Sandwiches 3 


Apple Pies 1 








这 似乎 对 一 个 非常 简单 的 东西 建 模 ， 你 可 能 认为 不 需要 费事 去 写 一 
个 程序 来 做 到 这 一 点 。 但 是 要 认识 到 ， 这 个 函数 totalBrought() 可 以 轻易 
地 处 理 一 个 字典 ， 其 中 包含 数 干 名 客人 ， 每 个 人 都 带 来 了 “ 数 干 种 ”不 同 
的 野餐 食物 。 这 样 用 这 种 数据 结构 来 保存 信息 ， 并 使 用 totalBrought() 函 
数 ， 就 会 节约 大 量 的 时 间 ! 


你 可 以 用 自己 喜欢 的 任何 方法 ， 用 数据 结构 对 事物 建 模 ， 只 要 程序 
中 其 他 代码 能 够 正确 处 理 这 个 数据 模型 。 在 刚 开始 编程 时 ， 不 需要 大 担 
心 数据 建 模 的 “正确 "方式 。 随 着 经 验 增加 ， 你 可 能 会 得 到 更 有 效 的 模 
型 ， 但 重要 的 是 ， 该 数据 模型 符合 程序 的 需要 。 




















5.4 小 结 


在 本 章 中 ， 你 学 习 了 字典 的 所 有 相关 知识 。 列 表 和 字典 是 这 样 的 
值 ， 它 们 可 以 包含 多 个 值 ， 包 括 其 他 列表 和 字典 。 字 上 典 是 有 用 的 ， 因 为 
你 可 以 把 一 些 项 〈 键 ) 映射 到 另 一 些 项 〈 值 ) ， 它 不 像 列表 ， 只 包含 一 
系列 有 序 的 值 。 字 典 中 的 值 是 通过 方 括号 访问 的 ， 像 列表 一 样 。 字 典 不 
是 只 能 使 用 整数 下 标 ， 而 是 可 以 用 各 种 数据 类 型 作为 键 : 整 型 、 浮 点 
型 、 字 符 串 或 元 组 。 通 过 将 程序 中 的 值 组 织 成 数据 结构 ， 你 可 以 创建 真 
实 世 界 事物 的 模型 。 井 字 棋 盘 束 是 这 样 一 个 例子 。 


这 就 介绍 了 Python 编 程 的 所 有 基本 概念 ! 在 本 书后 面 的 部 分 ， 你 将 
继续 学 习 一 些 新 概念 ， 但 现在 你 已 学 习 了 足够 多 的 内 容 ， 可 以 开始 编写 
一 些 有 用 的 程序 ， 让 一 些 任务 自动 化 。 你 可 能 不 党 得 自己 有 足够 的 
Python 知识 ， 来 实现 页 面 下 载 、 更 新 电子 表格 ， 或 发 送 文本 消息 。 但 这 
就 是 Python 模块 要 二 的 事 ! 这 些 模块 由 其 他 程序 员 有 编写， 提供 了 一 些 函 
数 ， 让 这 些 事情 变 得 容易 。 所 以 让 我 们 学 习 如 何 编写 真正 的 程序 ， 实 现 
有 用 的 自动 化 任务 。 












































5.5 习题 
1. 空 字典 的 代码 是 怎样 的 ? 
2. 一 个 字典 包含 键 fow' 和 值 42， 看 起 来 是 怎样 的 ? 
3. 字典 和 列表 的 主要 区 别 是 什么 ? 
4. 如 采 spam 是 {bar: 100}， 你 试图 访问 spam[foo]， 会 发 生 什 么 ? 


5. 如 果 一 个 字典 保存 在 spam 中 ， 表 达 式 'cat in spam 和 'cat in 
spam.keys0O 之 间 的 区 别 是 什么 ? 


6. 如 果 一 个 字典 保存 在 变量 中 ， 表 达 式 'cat' in spam 和 和 'cat' in 
spam.valuesO 之 间 的 区 别 是 什么 ? 


7. 下 面 代码 的 简洁 写法 是 什么 ? 


if ‘color' not in spam: 





spam[ 'color'] = ‘black' 





8. TAR ERA es BAY VA Pe sca] Ee He? 


5.6 实践 项 目 
作为 实践 ， 编 程 完成 下 列 任 务 。 
5.6.1 好 玩 游戏 的 物品 清单 


你 在 创建 一 个 好 玩 的 视频 游戏 。 用 于 对 玩家 物品 清单 建 模 的 数据 结 
构 是 一 个 字典 。 其 中 键 是 字符 串 ， 描 述 清单 中 的 物品 ， 值 是 一 个 整 型 
值 ， 说 明 玩家 有 多 少 该 物品 。 例 如 ， 字 上 典 值 {'rope': 1, 'torch': 6, 'gold 
coin': 42, 'dagger': 1, 'arrow': 12} 意 味 痢 玩家 有 1 条 绳索 、6 个 火把 、42 枚 
金币 等 。 


写 一 个 名 为 displayInventory0) 的 函数 ， 它 接受 任何 可 能 的 物品 清 
单 ， 并 显示 如 下 : 








Inventory: 
12 arrow 

42 gold coin 
1 rope 

6 torch 


1 dagger 
Total number of items: 62 





提示 | 
你 可 以 使 用 for 循 环 ， 遍 历 字 典 中 所 有 的 键 。 























# inventory.py 
stuff = {'rope': 1, 'torch': 6, ‘gold coin': 42, 'dagger': 1, ‘arrow': 12} 


def displayInventory(inventory ) : 
print("Inventory:") 
item_total = @ 
for k, v in inventory.items(): 
print(str(v) + ' ' + k) 
item_total += v 
print("Total number of items: " + str(item_total) ) 


displayInventory (stuff) 





5.6.2 列表 到 字典 的 函数 ， 针 对 好 玩 游戏 物品 清单 
假设 征服 一 条 龙 的 战利品 表示 为 这 样 的 字符 串 列表 : 


dragonLoot = ['gold coin', 'dagger', ‘gold coin', ‘gold coin', 'ruby'] 





写 一 个 名 为 addToInventory(inventory, addedItems) 的 函数 ， 其 中 
inventory 参 数 是 一 个 字典 ， 表 示 玩 家 的 物品 清单 〈 像 前 面 项 目 一 样 ) ， 
addedItems 参 数 是 一 个 列表 ， 就 像 dragonLoot。 


addToInventory0O 函 数 应 该 返回 一 个 字典 ， 表 示 更 新 过 的 物品 清单 。 
请 注意 ， 列 表 可 以 包含 多 个 同样 的 项 。 你 的 代码 看 起 来 可 能 像 这 样 : 


def addToInventory(inventory，addedItems ) : 
# your code goes here 


inv = {'gold coin': 42, ‘rope’: 1} 
dragonLoot = ['gold coin', ‘dagger', ‘gold coin', ‘gold coin’, ‘ruby' | 


inv = addToInventory(inv, dragonLoot) 
displayInventory(inv) 





前 面 的 程序 〈 加 上 前 一 个 项 目 中 的 displayInventoryO 函 数 ) 将 输出 
HP: 


Inventory: 
45 gold coin 
1 rope 

1 ruby 

1 dagger 


Total number of items: 48 





第 6 革 TIFE PETE 


文本 是 程序 需要 处 理 的 最 常见 的 数据 形式 。 你 已 经 知道 如 何 用 + 操 
作 符 连接 两 个 字符 串 ， 但 能 做 的 事情 还 要 多 得 多 。 可 以 从 字符 串 中 提取 
部 分 字符 串 ， 添 加 或 删除 空白 字符 ， 将 字母 转换 成 小 写 或 大 写 ， 检 查 字 
e a a aa eerie 
粘贴 文本 。 


在 本 章 中 ， 你 将 学 习 所 有 这 些 内 容 和 更 多 内 容 。 然 后 你 会 看 到 两 个 
不 同 的 编程 项 目 ， 一 个 是 简单 的 口令 管理 器 ， 另 一 个 将 枯燥 的 文本 格式 
化 工作 自动 化 。 

6.1 处 理 字符 串 


Í 让 我 们 来 看 看 ，Python 提 供 的 写 入 、 打 印 和 访问 字符 串 的 一 些 方 
Wes 




















6.1.1 字符 串 字 面 量 


在 Python 中 输入 字符 串 值 相当 简单 的 ; 它们 以 单 引号 开始 和 结束 。 
但 是 如 何 才 能 在 字符 串 内 使 用 单 引 号 呢 ? 输入 'That is Alice's cat.' 是 不 行 
的 ， 因 为 Python 认为 这 个 字符 串 在 Alice 之 后 就 结束 了 ， 剩 下 的 〈s 
cat’) 是 无 效 的 Python 代码 。 好 在 ， 有 几 种 方法 来 输入 字符 串 。 


6.1.2 双 引 号 
字符 串 可 以 用 双 引 号 开始 和 结束 ， 就 像 用 单 引号 一 样 。 使 用 双 引 号 


的 一 个 好 处 ， 融 是 字符 串 中 可 以 使 用 单 引 号 字符 。 在 交互 式 环境 中 输入 
以 下 代码 : 








>>> spam 


= "That is Alice's cat." 





因为 字符 串 以 双 引 号 开始 ， 所 以 Python 知道 单 引 号 是 字符 串 的 一 部 
分 ， 而 不 是 表示 字符 串 的 结束 。 但 是 ， 如 果 在 字符 串 中 既 需要 使 用 单 引 
写 又 需要 使 用 双 引 写 ， 那 束 要 使 用 转 义 字符 。 


6.1.3 转 义 字符 


“ 转 义 字符 "让 你 输入 一 些 字符 ， 它 们 用 其 他 方式 是 不 可 能 放 在 字符 
串 里 的 。 转 义 字符 包含 一 个 倒 斜 杠 (\) ， 紧 跟着 是 想 要 添加 到 字符 串 
中 的 字符 。 (尽管 它 包 含 两 个 字符 ， 但 大 家 公认 它 是 一 个 转 义 字符 。) 
例如 ， 单 引号 的 转 义 字符 是 Y。 你 可 以 在 单 引号 开始 和 结束 的 字符 串 中 
使 用 它 。 为 了 看 看 转 义 字符 的 效果 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> spam = ‘Say hi to Bob\'s mother.’ 





Python 知 道 ， 因 为 Bob\s 中 的 单 引号 有 一 个 倒 斜 杠 ， 所 以 它 不 是 表 
ee 结束 的 单 引 号 。 转 义 字 符 \ 和 \" 让 你 能 在 字符 串 中 加 入 单 引号 和 
MG] So 


表 6-1 列 出 了 可 用 的 转 义 字符 。 


表 6-1 转 义 字符 


转 义 字符 


























在 交互 式 环境 中 输入 以 下 代码 : 


>>> print("Hello there!NnHow are you?\nI\'m doing fine.") 


Hello there! 


How are you? 
I'm doing fine. 





6.1.4 原始 字符 串 

可 以 在 字符 串 开 始 的 引号 之 前 加 上 r， 使 它 成 为 原始 字符 串 。“ 原 始 
字符 串 ” 完 全 忽略 所 有 的 转 义 人 字符， 打印 出 字符 串 中 所 有 的 倒 斜 杜 。 例 
如 ， 在 交互 式 环境 中 输入 以 下 代码 : 








>>> print(r'That is Carol\'s cat.') 


That is Carol\'s cat. 





A Aix ze Roa AT eB, Python ARAL ce FPF BA — AR TAS 
是 转 义 字符 的 开始 。 如 果 输 入 的 字符 串 包含 许多 倒 斜 杜 ， 比 如 下 一 章 中 
要 介绍 的 正则 表达 式 字 符 串 ， 那 么 原始 字符 串 束 很 有 用 。 


6.1.5 用 三 重 引 号 的 多 行 字符 串 

虽然 可 以 用 \n 转 义 字 符 将 换行 放 入 一 个 字符 串 ， 但 使 用 多 行 字符 串 
通常 更 容易 。 在 Python 中 ， 多 行 字符 串 的 起 止 是 3 个 单 引 号 或 3 个 双 引 
号 。“ 三 重 引 号 ”之 间 的 所 有 引号 、 制 表 符 或 换行 ， 都 被 认为 是 字符 串 的 
一 部 分 。Python 的 代码 块 缩 进 规则 不 适用 于 多 行 字符 串 。 


打开 文件 编辑 器 ， 输 入 以 下 代码 : 














print('''Dear Alice, 
Eve's cat has been arrested for catnapping, cat burglary, and extortion. 


Sincerely, 


Bob''') 








将 该 程序 保存 为 catnapping.py 并 运行 。 输 出 看 起 来 像 这 样 : 


Dear Alice, 
Eve's cat has been arrested for catnapping, cat burglary, and extortion. 


Sincerely, 
Bob 





请 注意 ，Eve's 中 的 单 引号 字符 不 需要 转 义 。 在 原始 字符 串 中 ， 转 义 
单 引号 和 双 引 号 是 可 选 的 。 下 面 的 printO) 调 用 将 打印 出 同样 的 文本 ， 但 
没有 使 用 多 行 字符 串 : 


print('Dear Alice,\n\nEve\'s cat has been arrested for catnapping, cat 
burglary, and extortion. \n\nSincerely, \nBob' ) 





6.1.6 多 行 注释 


_ 虽然 井 号 字符 (#) 表示 这 一 行 是 注释 ， 但 多 行 字 符 串 常常 用 作 多 
行 注 秋 。 下 面 是 完全 有 效 的 Python 代 码 : 











"""This is a test Python program. 
Written by Al Sweigart al@inventwithpython.com 


This program was designed for Python 3, not Python 2. 


def spam(): 


"""This is a multiline comment to help 
explain what the spam() function does.""" 
print('Hello!') 





6.1.7 字符 串 下 标 和 切片 
字符 串 像 列表 一 样 ， 使 用 下 标 和 切片 。 可 以 将 字符 串 'Hello 





world!' 看 成 是 一 个 列表 ， 字 符 串 中 的 每 个 字符 都 是 一 个 表 项 ， 有 对 应 的 
下 标 。 


H e 1 10w o r 1 d ! 
0 1 2 3 4 5 6 7 8 9 1011 





字符 计数 包含 了 空格 和 感叹 号 ， 所 以 'Hello word! H1207, H 
的 下 标 是 0，! 的 下 标 是 11。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> spam = "Hello world!' 


>>> Spam[6] 


"H' 
>>> spam[4] 


'o' 
>>> spam[ -1] 


Sefi 
>>> spam[@:5] 


"Hello' 
>>> spam[ :5] 


"Hello' 
>>> spam[6: ] 


"world!" 





如 末 指 定 一 个 下 标 ， 你 将 得 到 字符 串 在 该 处 的 字符 。 如 采用 一 个 下 
标 和 另 一 个 下 标 指定 一 个 范围 ， 开 始 下 标 将 被 包含 ， 结 束 下 标 则 不 包 
含 。 因 此 ， 如 果 spam 是 'Hello world!"，spam[0:5] 就 是 'Hello'。 通 过 
spam[0:5] 得 到 的 子 字符 串 ， 将 包含 Spam[0] 到 spam[4] 的 全 部 内 容 ， 而 不 


包括 下 标 5 处 的 空格 。 





请 注意 ， 字 符 串 切片 并 没有 修改 原来 的 字符 串 。 可 以 从 一 个 变量 中 
获取 切片 ， 记 录 在 另 一 个 变量 中 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> spam = "Hello world!' 


>>> fizz = Spam[6:5] 


>>> fizz 


"Hello' 
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完整 的 字符 串 和 子 字符 串 ， 便 于 快速 简单 的 访问 。 


6.1.8 字符 串 的 讯 和 not in 操 作 符 
像 列表 一 样 ，in 和 not in 操 作 符 也 可 以 用 于 字符 串 。 用 in 或 not in 连 接 


两 个 字符 串 得 到 的 表达 式 ， 将 求 值 为 布尔 值 True 或 False。 在 交互 式 环 境 
中 输入 以 下 代码 : 





>>> 'Hello' in 'Hello World' 


True 
>>> "Hello' in 'Hello' 


True 
>>> "HELLO' in "Hello World’ 


False 
>>> '' in "spam' 


True 
>>> 'cats' not in ‘cats and dogs' 


False 








这 些 表达 式 测试 第 一 个 字符 串 (精确 匹配 ， 区 分 大 小 写 ) 是 否 在 第 
二 个 字符 串 中 。 


6.2 有 用 的 字符 串 方 法 


一 些 字 符 串 方法 会 分 析 字 符 串 ， 或 生成 转变 过 的 字符 串 。 本 节 介 绍 
了 这 些 方法 ， 你 会 经 党 使 用 它们 。 


6.2.1 字符 串 方法 upper0、lower(0、isupper0 和 islower0) 


upper() 和 lower() 字 符 串 方法 返回 一 个 新 字符 串 ， 其 中 原 字符 串 的 所 
有 字 坪 都 被 相应 地 转换 为 大 写 或 小 写 。 字 符 串 中 非 字母 字符 保持 不 变 。 


在 交互 式 环境 中 输入 以 下 代码 : 





>>> spam = "Hello world!' 


>>> Spam = spam.upper() 


>>> spam 


"HELLO WORLD! ' 
>>> Spam = spam. lower() 


>>> Spam 


"hello world!' 











请 注意 ， 这 些 方法 没有 改变 字符 串 本 里 ， 而 是 返回 一 个 新 字符 串 。 





如 果 你 希望 改变 原来 的 字符 串 ， 就 必须 在 该 字符 串 上 调用 upper() 或 
lower0， 人 然后 将 这 个 新 字符 串 赋 给 保存 原来 字符 串 的 变量 。 这 就 是 为 什 
么 必须 使 用 spam = spam.upper()， 才 能 改变 spam 中 的 字符 串 ， 而 不 是 仪 
仅 使 用 spam.upperO0 〈 这 束 好 比 ， 如 果 变 量 eggs 中 包含 值 10， 写 下 eggs + 
3 并 不 会 改变 eggs 的 值 ， 但 是 eggs = eggs + 3 会 改变 egg 的 值 ) 。 


如 果 需 要 进行 大 小 写 无 关 的 比较 ，upper() 和 ]ower0 方 法 就 很 有 用 。 
字符 串 'great' 和 'GREat' 彼 此 不 相等 。 但 在 下 面 的 小 程序 中 ， 用 户 输 入 
Great、GREAT 或 grEAT 都 没关系 ， 因 为 字符 串 首 先 被 转换 成 小 写 。 





print('How are you? ) 

feeling = input() 

if feeling.lower() == ‘great’: 
print('I feel great too.') 

else: 


print('I hope the rest of your day is good.') 








在 运行 该 程序 时 ， 先 显示 问题 ， 然 后 输入 变形 的 great， 如 GREat, 
程序 将 给 出 输出 T feel great too。 在 程序 中 加 入 代码 ， 处 理 多 种 用 户 输入 
全 间或 答 入 销 误 ， 详 如 大 小 写 不 一 致 ， 这 会 让 程序 更 容易 使 用 ， 且 更 不 
容易 失效 。 


How are you? 
GREat 


I feel great too. 








如 有 果 字 符 串 至 少 有 一 个 字母 ， 并 且 所 有 字母 都 是 大 写 或 小 写 ， 
isupper() 和 islower() 方 法 就 会 相应 地 返回 布尔 值 True。 奋 则 ， 该 方法 返回 
False。 在 交互 式 环境 中 输入 以 下 代码 ， 并 注意 每 个 方法 调用 的 返回 值 : 





>>> spam = "Hello world!' 


>>> Spam.islower() 


False 
>>> Spam. isupper() 


False 
>>> "HELLO'.isupper() 


True 
>>> 'abc12345' .islower() 


True 
>>> '12345'.islower() 


False 
>>> '12345'.isupper() 


False 











因为 upper0 和 1lowerO 字 符 串 方法 本 身 返 回 字 符 串 ， 所 以 也 可 以 
在 “那些 ”返回 的 字符 串 上 继续 调用 字符 串 方 法 。 这 样 做 的 表达 式 看 起 来 





就 像 方法 调用 链 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'Hello'.upper() 


"HELLO' 


>>> 'Hello' 


"hello' 


>>> 'Hello' 


"HELLO' 


>>> "HELLO' 


"hello' 


>>> "HELLO' 


True 


.upper().lower() 


.upper().lower().upper() 


. Lower () 


. Lower() .islower() 








6.2.2 isX 字 符 串 方法 


除了 islower() 和 isupper()， 还 有 几 个 字符 串 方 法 ， 它 们 的 名 字 以 is 开 
人 。 这 些 方法 返回 一 个 布尔 值 ， 描 述 了 字符 串 的 特点 。 下 面 是 一 些 常 用 
的 isX 字 符 串 方法 : 


e isalpha0 返 回 True， 如 果 字 符 串 只 包含 字母 ， 并 且 非 空 








isalnum() 返 回 True， 如 果 字 符 串 只 包含 字母 和 数字 ， 并 且 非 空 
ee 如 果 字 符 串 只 包含 数字 字符 ， 并 且 非 空 ; 
ae 返回 True， 如 果 字 符 串 只 包含 空格 、 制 表 符 和 换行 ， 并 且 
.istitle0 返 回 True， 如 果 字 符 串 仅 包 含 以 大 与 字母 开头 、 后 面 都 是 小 
写字 母 的 单词 。 


在 交互 式 环 境 中 输入 以 下 代码 : 








>>> "hello'.isalpha() 


True 
>>> "hello123'.isalpha() 


False 
>>> "hello123'.isalnum() 


True 
>>> "hello'.isalnum() 


True 
>>> '123'.isdecimal() 


True 
>>> ' '.isspace() 


True 
>>> 'This Is Title Case'.istitle() 


True 
>>> 'This Is Title Case 123'.istitle() 


True 
>>> 'This Is not Title Case'.istitle() 


False 
>>> "This Is NOT Title Case Either'.istitle() 


False 
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程序 反复 询问 用 户 年 龄 和 口令 ， 直 到 他 们 提供 有 效 的 输入 。 打 开 一 个 新 
的 文件 编辑 器 窗口 ， 输 入 以 下 程序 ， 保 存 为 validateInput.py: 


while True: 
print('Enter your age:') 


age = input() 
if age.isdecimal(): 
break 
print('Please enter a number for your age.') 


while True: 
print('Select a new password (letters and numbers only):') 
password = input() 
if password.isalnum(): 
break 
print('Passwords can only have letters and numbers. ') 
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age 中 。 如 果 age 是 有 效 的 值 〈 数 字 ) ， 我 们 就 跳出 第 一 个 while 循 环 ， 转 
回 第 二 个 循环 ， 询 问 口 令 。 否 则 ， 我 们 告诉 用 户 需 要 输入 数字 ， 并 再 次 





要 求 他 们 输入 年 龄 。 在 第 二 个 while 循 环 中 ， 我 们 要 求 输入 口令 ， 客 户 
J ee 就 跳出 循环 。 如 果 











不 是 ， 我 们 并 不 满意 ， 告诉 用 户口 令 必 须 是 字母 或 数字 ， 并 再 次 要 
求 他 们 输入 口令 。 


如 果 运 行 ， 该 程序 的 输出 看 起 来 如 下 : 





Enter your age: 
forty two 


Please enter a number for your age. 
Enter your age: 
42 


Select a new password (letters and numbers only): 
secr3t! 


Passwords can only have letters and numbers. 


Select a new password (letters and numbers only): 
secr3t 





在 变量 上 调用 isdecimal() 和 isalnum()， 我 们 就 能 够 测试 保存 在 这 些 








变量 中 的 值 是 否 为 数字 ， 是 否 为 字母 或 数字 。 这 里 ， 这 些 测 试 帮助 我 们 
拒绝 输入 forty two， 接 受 42， 拒 绝 secr3t!， 接 受 secr3t。 


6.2.3 字符 串 方法 startswith() 和 endswith() 
startswith() 和 endswith() 方 法 返回 True， 如 果 它 们 所 调用 的 字符 串 以 


该 方法 传 入 的 字符 串 开 始 或 结束 。 否 则 ， 方 法 返回 False。 在 交互 式 环境 
中 输入 以 下 代码 : 





>>> "Hello world!'.startswith('Hello') 


True 
>>> "Hello world! '.endswith('world! ') 


True 
>>> 'abc123'.startswith('abcdef' ) 


False 
>>> 'abc123'.endswith('12') 


False 
>>> "Hello world!'.startswith('Hello world! ') 


True 
>>> "Hello world!'.endswith('Hello world! ') 


True 











如 果 只 需要 检查 字符 串 的 开始 或 结束 部 分 是 否 等 于 另 一 个 字符 串 ， 








而 不 是 整个 字符 串 ， 这 些 方法 就 可 以 蔡 代 等 于 操作 符 ==， 这 很 有 用 。 
6.2.4 字符 串 方 法 join0 和 split0) 


如 果 有 一 个 字符 串 列 表 ， 需 要 将 它们 连接 起 来 ， 成 为 一 个 单独 的 字 
和 从 串 ，join0 方 法 号 很 有 用 。join0 方 法 在 一 个 字符 串 上 调用 ， 参 数 是 一 
个 字符 串 列 表 ， 返 回 一 个 字符 串 。 返 回 的 字符 串 由 传 入 的 列表 中 每 个 字 
符 串 连接 而 成 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 





>>> ', '.join(['cats', 'rats', 'bats']) 


"cats, rats, bats' 
>>> ' '.join(['My', ‘name’, ‘is', 'Simon']) 


"My name is Simon' 
>>> "ABC'.join(['My', ‘name’, 'is', 'Simon']) 


"MyABCnameABCisABCSimon ' 





请 注意 ， 调用 join(0) 方 法 的 字符 串 ， 被 插入 到 列表 参数 中 每 个 字符 
串 的 中 间 。 人 例如， 如果 在 , 字符 串 上 调用 join(['cats, 'rats', bats])， 返 回 
的 字符 串 就 是 'cats, rats, bats'。 


要 记 住 ，join0 方 法 是 针对 一 个 字符 串 而 调用 的 ， 并 且 传 入 一 个 列 
表 值 “很 容易 不 小 心 用 其 他 的 方式 调用 它 〉。split0 方 法 做 的 事情 正好 
相反 : 它 针 对 一 个 字符 串 调用 ， 返 回 一 个 字符 串 列 表 。 在 交互 式 环境 中 
输入 以 下 代码 : 





>>> "My name is Simon'.split() 


['My', 'name', ‘is', ‘Simon’ ] 


[L E 

默认 情况 下 ， 字 符 串 'My name is Simon' 按 照 各 种 空白 字符 分 割 ， 诸 
如 空格 、 制 表 符 或 换行 符 。 这 些 空白 字符 不 包含 在 返回 列表 的 字符 串 
中 。 也 可 以 同 split0 方 法 传 入 一 个 分 割 字 符 串 ， 指 定 它 按照 不 同 的 字符 
串 分 割 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> "MyABCnameABCisABCSimon' .split(' ABC ') 


['My', ‘name’, ‘'is', 'Simon'] 
>>> "My name is Simon'.split('m') 





一 个 常见 的 split0 用 法 ， 是 按照 换行 符 分 割 多 行 字符 串 。 在 交互 式 
环境 中 输入 以 下 代码 : 





>>> spam = '''Dear Alice, 


How have you been? I am fine. 


There is a container in the fridge 


that is labeled "Milk Experiment”. 


Please do not drink it. 


Sincerely, 


Bob' ut 


>>> Spam.split('\n') 


['Dear Alice,', 'How have you been? I am fine.', ‘There is a container in t 


fridge’, 'that is labeled "Milk Experiment".', , "Please do not drink it. 
"Sincerely,', 'Bob'] 


[L CR 


向 split0 方 法 传 入 参数 "nn*?， 我 们 按照 换行 符 分 割 变量 中 存储 的 多 行 
字符 串 ， 返 回 列表 中 的 每 个 表 项 ， 对 应 于 字符 串 中 的 一 行 。 


6.2.5 用 rjust0、1ljust0 和 center(0) 方 法 对 齐 文 本 
riust0 和 1ljustO 字 符 串 方法 返回 调用 它们 的 字符 串 的 填充 版 本 ， 通 过 


插入 空格 来 对 齐 文本 。 这 两 个 方法 的 第 一 个 参数 是 一 个 整数 长 度 ， 用 于 
对 齐 字 符 串 。 在 交互 式 环 境 中 输入 以 下 代码 : 








>>> 'Hello'.rjust(10) 


Hello' 
>>> "Hello'.rjust(20) 


i Hello' 
>>> "Hello World'.rjust(20) 


; Hello World' 
>>> "Hello'.1ljust(10) 





'Hello'.rjust(10) 是 说 我 们 希望 右 对 齐 ， 将 'Hello' 放 在 一 个 长 度 为 10 的 
字符 串 中 。'Hello 有 5 个 字符 ， 所 以 左边 会 加 上 5 个 空格 ， 得 到 一 个 10 个 
字符 的 字符 串 ， 实 现 'Hello' 右 对 齐 。 


rust0 和 jjust0 方 法 的 第 二 个 可 选 参数 将 指定 一 个 填充 字符 ， 取 代 空 
格 字 符 。 在 交互 式 环 境 中 输入 以 下 代码 : 








>>> "Hello'.rjust(20, '*') 


Tok RK RR KK AK KKKKHALTI]O' 


>>> "Hello'.1ljust(20, '-') 











center() 字 符 串 方法 与 ljust( 与 rjust() 类 似 ， 但 它 让 文本 居中， 而 不 是 
左 对 齐 或 右 对 齐 。 在 交互 式 环境 中 输入 以 下 代码 : 








>>> "Hello'.center(20) 


Hello ' 
>>> 'Hello'.center(2@, '=') 


如 果 需 要 打印 表格 式 数 据 ， 留 出 正确 的 空格 ， 这 些 方 法 就 特别 有 
用 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 
picnicTable.py: 


def printPicnic(itemsDict, leftWidth, rightWidth): 
print('PICNIC ITEMS'.center(leftWidth + rightWidth, '-')) 
for k, v in itemsDict.items(): 
print(k.ljust(leftWidth, '.') + str(v).rjust(rightWidth) ) 
picnicItems = {'sandwiches': 4, ‘apples': 12, 'cups': 4, 'cookies': 8000} 


printPicnic(picnicItems, 12, 5) 
printPicnic(picnicItems, 20, 6) 








在 这 个 程序 中 ， 我 们 定义 了 printPicnic0 方 法 ， 它 接受 一 个 信息 的 字 
典 ， 并 利用 center0、1ljust0 和 rjust0， 以 一 种 干净 对 齐 的 表格 形式 显示 这 


些 信息 。 





我 们 传递 给 printPicnicO 的 字典 是 picnicItems。 在 picnicItems 中 ， 我 
们 有 4 个 三 明治 、12 个 苹 末 、4 个 杯子 和 8000 块 饼干 。 我 们 希望 将 这 些 信 
恩 组 织 成 两 行 ， 表 项 的 名 字 在 左边 ， 数 量 在 右边 。 


要 做 到 这 一 点 ， 就 需要 决定 左 列 和 右 列 的 宽度 。 与 字典 一 起 ， 我 们 
将 这 些 值 传递 给 printPicnic(). 


printPicnicO 接 受 一 个 字典 ， 一 个 leftWidth 表 示 表 的 左 列 宽度 ， 一 
II a 
然后 它 壳 历 字 典 ， 每 行 打印 一 个 键 - 值 对 。 键 左 对 齐 ， 填 充 句 

。 值 右 对 齐 ， 填 充 空 格 。 


在 定义 printPicnic() 后 ， 我 们 定义 了 字典 picnicItems， 并 调用 
PrintPicnicO 两 次 ， 传 入 不 同 的 表 左 右 列 宽 度 。 














运行 该 程序 ， 野 餐 用 品 就 会 显示 两 次 。 第 一 次 左 列 宽度 是 12 个 字 
符 ， 右 列 宽度 是 5 个 字符 。 第 二 次 它们 分 别 是 20 个 和 6 个 字符 。 





---PICNIC ITEMS-- 
sandwiches.. 4 





利用 rjust0、jjustD0 和 centerO 让 你 确保 字符 串 整 齐 对 齐 ， 即 使 你 不 清 
楚 字 符 串 有 多 少 字符 。 
6.2.6 用 strip()、rstrip() 和 1]strip0O 删 除 空白 字符 

有 时 候 你 希望 删除 字符 串 左 边 、 右 边 或 两 边 的 空白 字符 (空格 、 制 
表 符 和 换行 符 ) 。strip0 字 符 串 方法 将 返回 一 个 新 的 字符 串 ， 它 的 开头 
或 未 尾 都 没有 空白 字符 。lstrip0 和 rstrip() 方 法 将 相应 删除 左边 或 右边 的 
空 日 学 符 。 

在 交互 式 环境 中 输入 以 下 代码 : 








>>> spam = ”Hello World ' 


>>> spam.strip() 


"Hello World' 


>>> spam.1strip() 


"Hello World ' 
>>> spam.rstrip() 


Hello World' 





有 一 个 可 选 的 字符 串 参 数 ， 指 定 两 边 的 哪些 字符 应 该 删除 。 在 交互 
式 环 境 中 输入 以 下 代码 : 


>>> spam = 'SpamSpamBaconSpamEggsSpamSpam' 


>>> spam.strip('ampS' ) 


"BaconSpamEggs ' 








向 strip(0) 方 法 传 入 参数 'ampS'， 告 诉 它 在 变量 中 存储 的 字符 串 两 端 ， 
删除 出 现 的 a、m、Pp 和 大 写 的 S。 传 入 strip(0) 方 法 的 字符 串 中 ， 字 符 的 顺 
序 并 不 重要 : strip(ampS") 做 的 事情 和 strip('mapS') 或 strip('Spam') 一 样 。 


6.2.7 用 pyperclip 模 块 找 贝 粘贴 字符 串 


pyperclip 模 块 有 copy0 和 paste0) 函 数 ， 可 以 同 计 算 机 的 剪贴 板 发 送 文 
本 ， 或 从 它 接 收文 本 。 将 程序 的 输出 发 送 到 剪贴 板 ， 使 它 很 容易 粘贴 到 
邮件 、 文 字 处 理 程序 或 其 他 软件 中 。pyperclip 模 块 不 是 Python 自 带 的 。 
要 安装 它 ， 请 遵从 附录 A 中 安装 第 三 方 模块 的 指南 。 安 装 pyperclip 模 块 
后 ， 在 交互 式 环境 中 输入 以 下 代码 : 





>>> import pyperclip 


>>> pyperclip.copy('Hello world!') 


>>> pyperclip.paste() 


"Hello world!' 





“PR, BOR REN EP ZIP SEP EPL SBI MGA AZ, paste) 
函数 就 会 返回 它 。 例 如 ， 如 果 我 将 这 人 句 话 复制 到 剪贴 板 ， 然 后 调用 
paste()， 看 起 来 就 会 像 这 样 : 





>>> pyperclip.paste() 


"For example, if I copied this sentence to the clipboard and then called 
paste(), it would look like this:' 





在 IDLE 之 外 运行 Python 脚本 


到 目前 为 上 上， 你 一 直 在 使 用 IDLE 中 的 交互 式 环境 和 文件 编辑 器 来 运行 Python 脚本 。 但 是 ， 你 











不 想 每 次 运行 一 个 脚本 时 ， 都 打开 IDLE 和 Python 脚本 ， 这 样 不 方便 。 好 在 ， 有 一 些 快 捷 方 

式 ， 让 你 更 容易 地 建立 和 运行 Python 脚本 。 这 些 步骤 在 windows、OS X 和 Linux 上 稍 有 不 同 ， 
但 每 一 种 都 在 附录 B 中 描述 。 请 翻 到 附录 B， 学 习 如 何方 便 地 运行 Python 脚本 ， 并 能 够 癌 它 们 
传递 命令 行 参数 。〔 使 用 IDLE 时 ， 不 能 辣 程序 传递 命令 行 参数 。) 


6.3 项 目 : 口令 保管 箱 


你 可 能 在 许多 不 同 网 站 上 拥有 账号 ， 每 个 账号 使 用 相同 的 口令 是 个 
坏 习 惯 。 如 果 这 些 网 站 中 任何 一 个 有 安全 源 洞 ， 黑 客 就 会 知道 你 所 有 的 
其 他 账号 的 口令 。 最 好 是 在 你 的 计算 机 上 ， 使 用 口令 管理 占 软 件 ， 利 用 
一 个 主 控 口令 ， 解 锁 口 令 管理 器 。 然 后 将 菏 个 账户 口令 拷贝 到 剪贴 板 ， 
再 将 它 粘贴 到 网 站 的 口令 输入 框 。 


你 在 这 个 例子 中 创建 的 口令 管理 器 程序 并 不 安全 ， 但 它 基本 展示 了 
这 种 程序 的 工作 原理 。 


这 是 本 书 的 第 一 个 章 内 项 目 。 以 后 ， 每 章 都 会 有 一 些 项 目 ， 展 示 该 章 介 绍 的 一 些 概念 。 这 些 
项 目的 编写 方式 ， 让 你 从 一 个 空白 的 文件 编辑 器 窗口 开始 ， 得 到 一 个 完整 的 、 能 工作 的 程 
序 。 就 像 交 互 式 环 境 的 例子 一 样 ， 不 要 只 看 项 目的 部 分 ， 要 注意 计算 机 的 提示 ! 


第 1 步 : 程序 设计 和 数据 结构 


你 希望 用 一 个 命令 行 参数 来 运行 这 个 程序 ， 该 参数 是 账号 的 名 称 。 
例如 ， 账 号 的 口令 将 拷贝 到 勇 贴 板 ， 这 样 用 户 残 能 将 它 粘 贴 到 口令 输入 
框 。 通 过 这 种 方式 ， 用 户 可 以 有 很 长 而 复杂 的 口令 ， 又 不 需要 记 住 它 
们 。 































































































打开 一 个 新 的 文件 编辑 器 窗口 ， 将 该 程序 保存 为 pw.py。 程 序 开始 
时 需要 有 一 行 贡 《参见 附录 B) ， 并 有 应 该 写 一些 注 释 ， 简 单 描述 该 程 





序 。 因 为 你 希望 关联 每 个 账号 的 名 称 及 其 口令 ， 所 以 可 以 将 这 些 作 为 字 
符 串 保存 在 字典 中 。 字 典 将 是 组 织 你 的 账号 和 口令 数据 的 数据 结构 。 让 
你 的 程序 看 起 来 像 下 面 这 样 : 





#! python3 
# pw.py - An insecure password locker program. 


PASSWORDS = {'email': 'F7min1BDDuvMJuxESSKHFhTxFtjVB6' , 
'blog': 'VmALvQyKAxiVH5G8v@1if1MLZF3sdt', 
luggage’: '12345'} 





第 2 步 : 处 理 命令 行 参数 


命令 行 参数 将 存储 在 变量 sys.argv 中 (关于 如 何在 程序 中 使 用 命令 
行 参数 ， 更 多 信息 请 参见 附录 B) 。sys.argv 列 表 中 的 第 一 项 总 是 一 个 字 
符 串 ， 它 包含 程序 的 文件 名 (pw.py) 。 第 二 项 应 该 是 第 一 个 命令 行 参 
数 。 对 于 这 个 程序 ， 这 个 参数 就 是 账户 名 称 ， 你 希望 获取 它 的 口令 。 因 
为 命令 行 参 数 是 必须 的 ， 所 以 如 果 用 户 瑟 记 添加 参数 Chet, BR 
0 











#! python3 
# pw.py - An insecure password locker program. 


PASSWORDS = {'email': 'F7min1BDDuvMJuxESSKHFhTxFtjVB6' , 
'blog': 'VmALvQyKAxiVH5G8v@1if1MLZF3sdt', 
luggage’: '12345'} 


import sys 


if len(sys.argv) < 2: 


print('Usage: python pw.py [account] - copy account password ) 


sys.exit() 


account = sys.argv[1] # first command line arg is the account name 





第 3 步 : 复制 正确 的 口令 


既然 账户 名 称 已 经 作为 字符 串 保存 在 变量 account 中 ， 你 就 需要 看 看 
它 是 不 是 PASSWORDS 字 典 中 的 键 。 如 果 是 ， 你 和 希望 利用 
pyperclip.copy()， 将 该 键 的 值 复制 到 豌 贴 板 〈 既 然 用 到 了 pyperclip 模 





块 ， 就 需要 导入 它 ) 。 请 注意 ， 实 际 上 不 需要 account 变 量 ， 你 可 以 在 程 
序 中 所 有 使 用 account 的 地 方 ， 直 接 使 用 sys.argv[1]。 但 名 为 account 的 变 
量 更 可 读 ， 不 像 是 神秘 的 sys.argv[1]。 


证 你 的 程序 看 起 来 像 这 样 : 


#! python3 
# pw.py - An insecure password locker program. 


PASSWORDS = {'email': 'F7min1BDDuvMJuxESSKHFhTxXFtjVB6' ' ， 


'blog': 'VmALVQyKAxiVH5G8v@1if1MLZF3sdt', 


"luggage': '12345'} 


import sys, pyperclip 


if len(sys.argv) < 2: 
print('Usage: py pw.py [account] - copy account password’ ) 
sys.exit() 


account = sys.argv[1] # first command line arg is the account name 


if account in PASSWORDS: 


pyperclip.copy(PASSWORDS [account] ) 


print( "Password for ' + account + ' copied to clipboard.') 


else: 


print('There is no account named ' + account) 





这 上 段 新 代码 在 PASSWORDS 字 — 典 中 查找 账户 名 称 。 如 果 该 账号 名 称 





是 字典 中 的 键 ， BATRA ABM MANE, HER HBS, Wiad] 
印 一 条 消 妃 ， 说 我 们 已 经 复制 了 该 值 。 否 则 ， 我 们 打印 一 条 消 轧 ， 说 没 
有 这 个 名 称 的 账号 。 


这 就 是 完整 的 脚本 。 利 用 附录 B 中 的 指导 ， 轻 松 地 启动 命令 行程 
序 ， 现 在 你 就 有 了 一 种 快速 的 方式 ， 将 账号 的 口令 复制 到 剪贴 板 。 如 果 
需要 更 新 口令 ， 束 必须 修改 源 代 码 的 PASSWORDS 字 典 中 的 值 。 


当然 ， 你 可 能 不 希望 把 所 有 的 口令 都 放 在 一 个 地 方 ， 让 某 人 能 够 轻 
易 地 复制 。 但 你 可 以 修改 这 个 程序 ， 利 用 它 快 速 地 将 普通 文本 复制 到 剪 
贴 板 。 假 设 你 需要 发 出 一 些 电子 邮件 ， 它 们 有 许多 同样 的 段落 。 你 可 以 
将 每 个 段落 作为 一 个 值 ， 放 在 PASSWORDS 字 — 典 中 (此 时 你 可 能 希望 对 
这 个 字典 重 命 名 ) ， 然 后 你 就 有 了 一 种 方式 ， 快 速 地 选择 一 些 标准 的 文 
本 ， 并 复制 到 剪贴 板 。 


在 Windows 上 ， 你 可 以 创建 一 个 批 处 理 文 件 ， 利 用 Win-R 运 行 窗 
口 ， 来 运行 这 个 程序 〈 关 于 批 处 理 文 件 的 更 多 信息 ， 参 见 附 录 B) 。 在 
文件 编辑 器 中 输入 以 下 代码 ， 保 存 为 pw.bat， 放 在 C:\Windows 目录 下 : 











@py.exe C:\Python34\pw.py %* 
@pause 





有 了 这 个 批 处 理 文件 ， 在 Windows 上 运行 口令 保存 程序 ， 就 只 要 按 
下 Win-R， 再 输入 pw <account name>. 


6.4 WH: 在 Wiki 标 记 中 添加 无 序列 表 


在 编辑 一 篇 维基 百科 的 文章 时 ， 你 可 以 创建 一 个 无 序列 表 ， 即 让 每 
个 列表 项 占据 一 行 ， 并 在 前 面 放 置 一 个 星 号 。 但 是 假设 你 有 一 个 非常 大 
的 列表 ， 和 希望 添加 前 面 的 星 号 。 你 可 以 在 每 一 行 开始 处 输入 这 些 星 号 ， 
一 行 接 一 行 。 或 者 也 可 以 用 一 小 段 Python 脚本 ， 将 这 个 任务 自动 化 。 


bulletPointAdder.py 肢 本 将 从 豆 贴 板 中 取得 文本 ， 在 每 一 行 开始 处 加 
上 星 写 和 空格 ， 然 后 将 这 有 段 新 的 文本 贴 回 到 瘟 贴 板 。 例 如 ， 如 果 我 将 下 
面 的 文本 复制 到 剪贴 板 〈 取 自 于 维基 百科 的 文章 “List of Lists of 
Lists”) : 














Lists of animals 

Lists of aquarium life 

Lists of biologists by author abbreviation 
Lists of cultivars 





YR kiz íT bulletPointAdder.pytz/r, Bik PRAAS PHRMA: 


* Lists of animals 

* Lists of aquarium life 

* Lists of biologists by author abbreviation 
* Lists of cultivars 








这 上 段 前 面 加 了 星 写 的 文本 ， 束 可 以 粘贴 回 维基 百科 的 文章 中 ， 成 为 
一个 无 序列 家 


第 1 步 : 从 本 贴 板 中 复制 和 粘贴 


你 希望 bulletPointAdder.py 程 序 完成 下 列 事情 : 

1， 从 剪贴 板 粘贴 文本 ; 

2. 对 它 做 一 些 处 理 ; 

3. 将 新 的 文本 复制 到 剪贴 板 。 

第 2 步 有 一 点 技巧 ， 但 第 1 步 和 第 3 步 相 当 简 单 ， 它 们 只 是 利用 了 


pyperclip.copyO0 和 Ppyperclip.paste0 函 数 。 现 在 ， 我 们 先 写 出 程序 中 第 1 步 
和 第 3 步 的 部 分 。 输 入 以 下 代码 ， 将 程序 保存 为 bulletPointAdder.py: 











#! python3 
# bulletPointAdder.py - Adds Wikipedia bullet points to the start 
# of each line of text on the clipboard. 


import pyperclip 
text = pyperclip.paste() 


# TODO: Separate lines and add stars. 


pyperclip.copy(text) 











TODO FE jehi, URS AZ TENOR AT o Rae Seb Lash 
是 实现 程序 的 这 个 部 分 。 
第 2 步 : 分 离 文 本 中 的 行 ， 并 添加 星 写 


调用 pyperclip.paste0 将 返回 剪贴 板 上 的 所 有 文本 ， 结 果 是 一 个 大 字 
符 串 。 如 果 我 们 使 用 “List of Lists of Lists” 的 例子 ， 保 存在 text 中 的 字符 
P RI: 


"Lists of animals\nLists of aquarium life\nLists of biologists by author 
abbreviation\nLists of cultivars’ 





在 打印 到 剪贴 板 ， 或 从 剪贴 板 粘贴 时 ， 该 字符 串 中 的 换行 字符 ， 
让 它 能 显示 为 多 行 。 在 这 一 个 字符 串 中 有 许多 “ 行 >。 你 想 要 在 每 一 行 开 
始 处 添加 一 个 星 号 。 


你 可 以 编写 代码 ， 碍 找 字 符 串 中 每 个 m 换 行 字符 ， 然 后 在 它 后 面 添 
加 一 个 星 号 。 但 更 容易 的 做 法 是 ， 使 用 split0 方 法 得 到 一 个 字符 串 的 列 
表 ， 其 中 每 个 表 项 就 是 原来 字符 串 中 的 一 行 ， 然 后 在 列表 中 每 个 字符 串 
前 面 添加 星 写 。 


让 程序 看 起 来 像 这 样 : 

















#! python3 
# bulletPointAdder.py - Adds Wikipedia bullet points to the start 
# of each line of text on the clipboard. 


import pyperclip 
text = pyperclip.paste() 


# Separate lines and add stars. 


lines = text.split('\n') 


for i in range(len(lines)): # loop through all indexes in the "lines" list 


lines[i] = '* ' + lines[i] # add star to each string in "lines" list 


pyperclip.copy(text) 








我 们 按 换 行 符 分 割 文本 ， 得 到 一 个 列表 ， 其 中 每 个 表 项 是 文本 中 的 





一 行 。 我 们 将 列表 保存 在 lines 中 ， 然 后 过 历 lines 中 的 每 个 表 项 。 对 于 每 
一 行 ， 我 们 在 开始 处 添加 一 个 新 号 和 一 个 空格 。 现 在 lines 中 的 每 个 字符 
串 都 以 星 号 开始 。 


第 3 步 : 连接 修改 过 的 行 


lines 列 表现 在 包含 修改 过 的 行 ， 每 行 都 以 星 写 开始 。 但 
pyperclip.copy0 需 要 一 个 字符 串 ， 而 不 是 字符 串 的 列表 。 要 得 到 这 个 字 
从 串 ， 束 要 将 lines 传 递 给 join 方 法 ， 连 接 列表 中 字符 串 。 让 你 的 程序 看 
起 来 像 这 样 : 





#! python3 
# bulletPointAdder.py - Adds Wikipedia bullet points to the start 
# of each line of text on the clipboard. 


import pyperclip 
text = pyperclip.paste() 


# Separate lines and add stars. 
lines = text.split('\n') 
for i in range(len(lines)): # loop through all indexes for "lines" list 


lines[i] = '* ' + lines[i] # add star to each string in "lines" list 
text = '\n'.join(lines) 


pyperclip.copy(text) 











运行 这 个 程序 ， 它 将 取代 剪贴 板 上 的 文本 ， 新 的 文本 每 一 行 都 以 星 
号 开始 。 现 在 程序 完成 了 ， 可 以 在 六 贴 板 中 复制 一 些 文本 ， 试 看 运行 


已 


即使 不 需要 自动 化 这 样 一 个 专门 的 任务 ， 也 可 能 想 要 自动 化 菜 些 其 
他 类 型 的 文本 操作 ， 诸 如 删除 每 行 末尾 的 空格 ， 或 将 文本 转换 成 大 写 或 
小 写 。 不 论 你 的 需求 是 什么 ， 部 可 以 使 用 剪贴 板 作 为 输入 和 输出 。 


6.5 小 结 


文本 是 常见 的 数据 形式 ，Python 目 帝 了 许多 有 用 的 字符 串 方 法 ， 来 
处 理 保 存在 字符 串 中 的 文本 。 在 你 写 的 几乎 每 个 Python 程序 中 ， 都 会 用 
到 取 下 标 、 切 片 和 字符 串 方法 。 


现在 你 号 的 程序 似乎 不 太 复 杂 ， 因 为 它们 没有 图 形 用 户 界 面 ， 没 有 
图 像 和 彩色 的 文本 。 到 目前 为 止 ， 你 在 利用 printO 显 示 文 本 ， 利 用 
inputO 让 用 户 输入 文本 。 但 是 ， 用 户 可 以 通过 甬 贴 板 ， 快 速 输入 大 量 的 
文本 。 这 种 能 力 提 供 了 一 种 有 用 的 编程 方式 ， 可 以 操作 大 量 的 文本 。 这 
和 

TLIE, 


操作 大 量 文本 的 另 一 种 方式 ， 是 直接 从 硬盘 读 写 文件 。 在 下 一 章 
中 ， 你 将 学 习 如 何 用 Python 来 做 到 这 一 点 。 























6.6 习题 
1， 什么 是 转 义 字符 ? 
2， 转 义 字符 \n 和 Nt 代表 什么 ? 
3， 如 何在 字符 串 中 放 入 一 个 倒 斜 杠 字 符 \? 


4. 字符 串 "Howls Moving Castle" 是 有 效 字 符 串 。 为 什么 单词 中 的 
单 引 号 没有 转 义 ， 却 没有 问题 ? 


gig E ae een epee VO marten 
? 


6. 下 面 的 表达 式 求 值 为 什么 ? 


° 'Hello world!'[1] 
° 'Hello world!'[0:5] 
° 'Hello world!'[:5] 
° 'Hello world!'[3:] 


7. 下 面 的 表达 式 求 值 为 什么 ? 


° 'Hello'.upper() 
° 'Hello'.upper().isupper() 
° 'Hello'.upper().lower() 


8. 下 面 的 表达 式 求 值 为 什么 ? 

° 'Remember, remember, the fifth of November.'.split() 

° '-' join('There can be only one.'.split()) 
9. 什么 字符 串 方法 能 用 于 字符 串 右 对 齐 、 左 对 齐 和 大 中 ? 
10. 如 何 去 掉 字符 串 开始 或 末尾 的 空白 字符 ? 


6.7 实践 项 目 
作为 实践 ， 编 程 完成 下 列 任 务 。 








表格 打印 


编写 一 个 名 为 printTable0 的 函数 ， 它 接受 字符 串 的 列表 的 列表 ， 将 
它 显示 在 组 织 民 好 的 表格 中 ， 每 列 右 对 齐 。 假 定 所 有 内 层 列表 都 包含 同 
样 数目 的 字符 串 。 例 如 ， 该 值 可 能 看 起 来 像 这 样 : 





tableData = [['apples', 'oranges', 'cherries', 'banana'], 
['Alice', 'Bob', 'Carol', ‘David'], 
['dogs', 'cats', 'moose', 'goose']] 





你 的 printTable() 函 数 将 打印 出 : 


apples Alice dogs 
oranges Bob cats 
cherries Carol moose 
banana David goose 





你 的 代码 首先 必须 找到 每 个 内 层 列表 中 最 长 的 字符 串 ， 这 样 整 列 就 有 足够 的 宽度 以 放下 所 有 
































字符 串 。 你 可 以 将 每 一 列 的 最 大 宽度 ， 保 存 为 一 个 整数 的 列表 。PprintTable0) 函 数 的 开始 可 以 是 
colWidths = [0] * len(tableData)， 这 创建 了 一 个 列表 ， 它 包含 了 一 些 0， 数 目 与 tableData 中 内 层 
列表 的 数目 相同 。 这 样 ，colWidths[0] 就 可 以 保存 tableData[0] 中 最 长 字符 串 的 宽度 ， 
colWidths[1] 就 可 以 保存 tableData[1] 中 最 长 字符 串 的 宽度 ， 以 此 类 推 。 然 后 可 以 找到 colWidths 
列表 中 最 大 的 值 ， 决 定 将 什么 整数 宽度 传递 给 rjust() 字 符 串 方法 。 
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部 分 目 动 化 任务 





P7 ”模式 匹配 与 正则 表达 却 


你 可 能 熟悉 文本 查找 ， 即 按 下 Ctl-F， 输 入 你 要 查找 的 词 。“ 正 则 表 
达 式 "更 进一步 ， 它 们 让 你 指定 要 查找 的 “模式 *"。 你 也 许 不 知道 一 家 公 
司 的 准确 电话 号 码 ， 但 如 果 你 住 在 美国 或 加 拿 大 ， 你 束 知 道 它 有 3 位 数 
字 ， 然 后 是 一 个 短 横 线 ， 然 后 是 4 位 数字 (有 时 候 以 3 位 区 号 开始 ) 。 因 
此 作为 一 个 人 ， 你 看 到 一 个 电话 号 码 束 知道 415-555-1234 古 电话 号 
码 ， 但 4,155,551,234 不 是 。 


正则 表达 式 很 有 用 ， 但 如 果 不 是 程序 员 ， 很 少 会 有 人 了 解 它 ， 尽 管 
大 多 数 现 代 文 本 编辑 器 和 文字 处 理 器 《诸如 微软 的 Word 或 
OpenOffice) ， 都 有 查找 和 查找 蔡 换 功能 ， 可 以 根据 正则 表达 式 查 找 。 
正则 表达 式 可 以 节约 大 量 时 间 ， 不 仅 适 用 于 软件 用 户 ， 也 适用 于 程序 
员 。 实 际 上 ， 技 术 作 家 Cory Doctorow 声 称 ， 甚 至 应 该 在 教授 编程 之 
前 ， 先 教授 正则 表达 式 : 


“知道 [正则 表达 式 ] 可 能 意味 着 用 3 步 解决 一 个 问题 ， 而 不 是 用 3000 
步 。 如 果 你 是 一 个 技术 怪 侠 ， 别 忘 了 你 用 几 次 击 键 就 能 解决 的 问题 ， 其 
他 人 需要 数 天 的 烦琐 工作 才能 解决 ， 而 且 他 们 容易 犯错 。” H 


在 本 章 中 ， 你 将 从 编写 一 个 程序 开始 ， 先 不 用 正则 表达 式 来 寻找 文 
本 模式 。 然 后 再 看 看 ， 使 用 正则 表达 式 让 代码 变 得 多 么 简洁 。 我 将 展示 
用 正则 表达 式 进行 基本 匹配 ， 然 后 转向 一 些 更 强大 的 功能 ， 诸 如 字符 串 
蔡 换 ， 以 及 创建 你 自己 的 字符 类 型 。 最 后 ， 在 本 章 末 尾 ， 你 将 编写 一 个 
程序 ， 从 一 段 文本 中 自动 提取 电话 号 码 和 E-mail 地 址 。 


7.1 不 用 正则 表达 式 来 胡 找 文本 模式 


假设 你 希望 在 字符 串 中 但 找 电话 号 码 。 你 知道 模式 ，3 个 数字 ， 一 
个 短 横 线 ，3 个 数字 ， 一 个 短 横 线 ， 再 是 4 个 数字 。 例 如 : 415-555- 
4242., 


假定 我 们 用 一 个 名 为 isPhoneNumber0O 的 函数 ， 来 检查 字符 串 是 否 匹 
配 模式 ， 它 返回 True 或 False。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 
代码 ， 然 后 保存 为 isPhoneNumber.py: 















































def isPhoneNumber (text): 
if len(text) != 12: 
return False 
for i in range(@, 3): 
if not text[i].isdecimal(): 
return False 
if text[3] != '-': 
return False 
for i in range(4, 7): 
if not text[i].isdecimal(): 
return False 
if text[7] != '-': 
return False 
for i in range(8, 12): 
if not text[i].isdecimal(): 
return False 
return True 


print('415-555-4242 is a phone number:') 
print(isPhoneNumber('415-555-4242')) 
print('Moshi moshi is a phone number:' ) 
print(isPhoneNumber('Moshi moshi')) 





运行 该 程序 ， 输 出 看 起 来 像 这 样 : 


415-555-4242 is a phone number: 
True 

Moshi moshi is a phone number: 
False 











isPhoneNumber0O 函 数 的 代码 进行 几 项 检查 ， 看 看 text 中 的 字符 串 是 





不 是 有 效 的 电话 号 码 。 如 果 其 中 任意 一 项 检查 失败 ， 函 数 就 返回 False。 
代码 首先 检查 该 字符 串 是 否 刚 好 有 12 个 字符 @。 人 然后 它 检 查 区 号 (就 是 
text 中 的 前 3 个 字符 ) 是 否 只 包含 数字 仿 。 函 数 剩 下 的 部 分 检查 该 字符 串 
是 否 符合 电话 号 码 的 模式 : 号 码 必须 在 区 号 后 出 现 第 一 个 短 横 线 @，3 
个 数字 全 ， 然 后 是 为 一 个 短 横 线 @， 最 后 是 4 个 数字 @。 如 果 程 序 执行 





通过 了 所 有 的 检查 ， 它 就 返回 True@。 


用 参数 '415-555-4242' 调 用 isPhoneNumber() 将 返回 真 。 用 参数 '"Moshi 
moshi' 调 用 isPhoneNumber() 将 返回 假 ， 第 一 项 测试 失败 了 ， 因 为 不 是 12 
UN 23 Pts. 

FEIT 


必须 添加 更 多 代码 ， 才 能 在 更 长 的 字符 串 中 寻找 这 种 文本 模式 。 用 
下 面 的 代码 ， 蔡 代 isPhoneNumber.py 中 最 后 4 个 printO 函 数 调用 : 








message = ‘Call me at 415-555-1011 tomorrow. 415-555-9999 is my office. ' 
for i in range(len(message) ): 
e chunk = message[i:i+12 ] 
@ if isPhoneNumber(chunk ) : 
print('Phone number found: ' + chunk) 


print('Done' ) 





该 程序 运行 时 ， 输 出 看 起 来 像 这 样 : 


Phone number found: 415-555-1011 
Phone number found: 415-555-9999 
Done 





在 for 循 环 的 每 一 次 迭代 中 ， 取 自 message 的 一 段 新 的 12 个 字符 被 赋 
给 变量 chunk@。 例如 ， 在 第 一 次 迭代 ，i 是 0，chunk 被 赋值 为 
message[0:12]〈 即 字符 串 'Call me at 4) 。 在 下 一 次 迭代 ，i 是 1，chunk 
被 赋值 为 message[1:13] “字符 串 'all me at 41") 。 





将 chunk 传 递 给 isPhoneNumberO， 看 看 它 是 否 符合 电话 号 码 的 模式 
全 。 如 果 符 合 ， 就 打印 出 这 上 段 文 本 。 


继续 裔 历 message， 最 终 chunk 中 的 12 个 字符 会 是 一 个 电话 号 人 码 。 该 
循环 这 历 了 整个 字符 串 ， 测 试 了 每 一 段 12 个 人 字符， 打印 出 所 有 满足 
isPhoneNumber() 的 chunk。 当 我 们 遍历 完 message， 就 打印 出 Done。 





在 这 个 例子 中 ， 虽 然 message 中 的 字符 串 很 短 ， 但 它 也 可 能 包含 上 
百 万 个 字符 ， 程 序 运 行 仍然 不 需要 一 秒 钟 。 使 用 正则 表达 式 碍 找 电话 号 
D 运行 也 不 会 超过 一 秒 钟 ， 但 用 正则 表达 式 编 写 这 类 程序 
会 快 得 多 。 


7.2 用 正则 表达 式 查 找 文 本 模式 


前 面 的 电话 号 码 查 找 程 序 能 工作 ， 但 它 使 用 了 很 多 代码 ， 做 的 事 却 
APR: isPhoneNumber() 函 数 有 17 行 ， 但 只 能 查找 一 种 电话 号 人 码 模式 。 像 
415.555.4242 或 (415) 555-4242 这 样 的 电话 号 人 码 格 式 ， 该 怎么 办 呢 ? 如 果 
电话 号 码 有 分 机 ， 例 如 415-555-4242 x99， 该 怎么 办 呢 ? 
isPhoneNumber() 函 数 在 验证 它们 时 会 失败 。 你 可 以 添加 更 多 的 代码 来 处 
理 额外 的 模式 ， 但 还 有 更 简单 的 方法 。 


正则 表达 式 ， 人 简称 为 regex， 是 文本 模式 的 描述 方法 。 例 如 ，\d 是 
一 个 正则 表达 式 ， 表 示 一 位 数字 字符 ， 即 任何 一 位 0 到 9 的 数字 。 
Python 使 用 正则 表达 式 \dq\d\d-\d\d\d-\d\d\d\d， 来 匹配 前 面 
isPhoneNumber() Psi 2 VE Ac AY IA] PEC AS: 3 个 数字 、 一 个 短 横 线 、3 个 数 
字 、 一 个 短 横 线 、4 个 数字 。 所 有 其 他 字符 串 都 不 能 匹配 \d\d\d-\d\d\d- 
\dd\d\d 正 则 表达 式 。 


但 正则 表达 式 可 以 复杂 得 多 。 例 如 ， 在 一 个 模式 后 加 上 花 括 号 包围 


的 3 ({3}) ， 就 是 说 , “匹配 这 个 模式 3 次 ”。 所 以 较 短 的 正则 表达 式 
\d{3}-\d{t3}-\d{4}， 也 匹配 正确 的 电话 号 码 格式 。 


7.2.1 创建 正则 表达 式 对 象 


Python 中 所 有 正则 表达 式 的 函数 都 在 re 模块 中 。 在 交互 式 环 境 中 输 
入 以 下 代码 ， 导 入 该 模块 : 








>>> import re 


pT 


注意 
本 章 后 面 的 大 多 数 例子 都 需要 re 模块 ， 所 以 要 记得 在 你 写 的 每 个 脚本 开始 处 导入 它 ， 或 重新 
动 IDLE 时 。 否 则 ， 就 会 遇 到 错误 消息 NameFError: name 're' is not defined. 


同 re.compile() 传 入 一 个 字符 串 值 ， 表 示 正 则 表达 式 ， 它 将 返回 一 个 
Regex 模 式 对 象 ( 或 者 就 简称 为 Regex 对 象 )。 


要 创建 一 个 Regex 对 象 来 匹配 电话 号 人 码 模 式 ， 束 在 交互 式 环境 中 输 
入 以 下 代码 (回忆 一 下 ，\d 表 示 “ 一 个 数字 字符 ”，\d\d\d-\d\d\d-\d\d\d\d 是 
正确 电话 号 码 模式 的 正则 表达 式 ) 。 
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>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') 





现在 phoneNumRegex 变 量 包 含 了 一 个 Regex 对 象 。 
7.2.2 VL fitRegexx} & 


Regex 对 象 的 search() 方 法 查找 传 入 的 字符 串 ， 寻 找 该 正则 表达 式 的 
所 有 匹配 。 如 果 字 符 串 中 没有 找到 该 正则 表达 式 模 式 ，search(0) 方 法 将 
返回 None。 如 果 找 到 了 该 模式 ，search() 方 法 将 返回 一 个 Match 对 象 。 
Match 对 象 有 一 个 group(0) 方 法 ， 它 返回 被 查找 字符 串 中 实际 匹配 的 文本 

〈 稍 后 我 会 解释 分 组 ) 。 例 如 ， 在 交互 式 环 境 中 输入 以 下 代码 : 





>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') 


>>> mo = phoneNumRegex.search('My number is 415-555-4242.') 


>>> print('Phone number found: ' + mo.group()) 


Phone number found: 415-555-4242 








变量 名 mo 是 一 个 通用 的 名 称 ， 用 于 Match 对 象 。 这 个 例子 可 能 初 看 





起 来 有 点 复杂 ， 但 它 比 前 面 的 iPhoneNumber.py 程 序 要 短 很 多 ， 并 且 做 
的 事情 一 样 。 


这 里 ， 我 们 将 期 待 的 模式 传递 给 re.compile()， 并 将 得 到 的 Regex 对 
象 保存 在 phoneNumRegex 中 。 然 后 我 们 在 phoneNumRegex 上 调用 
search()， 辣 它 传 入 想 查 找 的 字符 串 。 得 找 的 结 采 保存 在 变量 mo 中 。 在 
这 个 例子 里 ， 我 们 知道 模式 会 在 这 个 字符 串 中 找到 ， 所 以 我 们 知道 会 返 
回 一 个 Match 对 象 。 知 道 mo 包含 一 个 Match 对 象 ， 而 不 是 空 值 None， 我 
们 就 可 以 在 mo 变量 上 调用 group0， 返 回 匹配 的 结果 。 将 mo.group0O 写 在 
打印 语句 中 ， 显 示 出 完整 的 匹配 ， 即 415-555-4242 。 

癌 re.compile() 传 递 原 始 字符 串 

回忆 一 下 ，Python 中 转 义 字 符 使 用 倒 斜 枉 O 。 字 符 串 表示 一 个 换行 字符 ， 而 不 是 倒 斜 杠 
加 上 一 个 小 写 的 n。 你 需要 输入 转 义 字符 \， 才 能 打印 出 一 个 倒 斜 枉 。 所 以 表示 一 个 倒 斜 杠 加 
上 一 个 小 写 的 n。 但 是 ， 通 过 在 字符 串 的 第 一 个 引号 之 前 加 上 r， 可 以 将 该 字符 串 标记 为 原始 5 
符 串 ， 它 不 包括 转 义 字符 。 


因为 正则 表达 式 常 常 使 用 倒 斜 枉 ， 向 re.compile0) 函 数 传 入 原始 字符 串 就 很 方便 ， 而 不 是 输 
入 额外 得 到 斜 杜 。 输 入 md\d\da\d\d\d-\d\d\d\d'， 比 输入 "\d\d\d-\d\d\d-\d\d\d\d' 要 容易 得 多 。 


7.2.3 正则 表达 式 匹 配 复习 






















































































虽然 在 Python 中 使 用 正则 表达 式 有 几 个 步 又， 但 每 一 步 都 相当 简 
单 。 


1. 用 import re 导入 正则 表达 式 模块 。 


2. 用 re.compile() 函 数 创建 一 个 Regex 对 象 ( 记 得 使 用 原始 字符 
B) 


3.， 问 Regex 对 象 的 search() 方 法 传 入 想 碍 找 的 字符 串 。 它 返回 一 个 
Match 对 象 。 


4. 调用 Match 对 象 的 group(0) 方 法 ， 返 回 实 际 匹配 文本 的 字符 串 。 


ye ae 


虽然 我 鼓励 你 在 交互 式 环境 中 输入 示例 代码 ,但 你 也 应 该 利用 基于 网 页 的 正则 表达 式 测试 程 
序 。 它 可 以 向 你 清楚 地 展示 ， 一 个 正则 表达 式 如 何 匹配 输入 的 一 段 文 本 。 我 推荐 的 测试 程序 
位 于 http://regexpal.com/ 。 


7.3 用 正则 表达 式 匹 配 更 多 模式 


既然 你 已 知道 用 Python 创建 和 奉 找 正则 表达 式 对 象 的 基本 步骤 ， 丈 
可 以 尝试 一 些 更 强大 的 模式 匹配 功能 了 。 


7.3.1 利用 括号 分 组 


假定 想 要 将 区 号 从 电话 号 码 中 分 离 。 添 加 括号 将 在 正则 表达 式 中 创 
建 * 分 组 >:， (Cddd-Cddd-dddd。 然 后 可 以 使 用 group0 匹 配对 象 方 
法 ， 从 一 个 分 组 中 获取 匹配 的 文本 。 


正则 表达 陈 字 符 串 中 的 第 一 对 括号 是 第 1 组 。 第 二 对 括号 是 第 2 组 。 
问 groupO 匹 配对 象 方法 传 入 整数 1 或 2， 就 可 以 取得 匹配 文本 的 不 同 部 
分 。 问 group() 方 法 传 入 0 或 不 传 入 参数 ， 将 返回 整个 匹配 的 文本 。 在 区 
互 式 环境 中 输入 以 下 代码 : 





























>>> phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)') 


>>> mo = phoneNumRegex.search('My number is 415-555-4242.') 


>>> mo.group(1) 


"415' 
>>> mo.group(2) 


"555-4242' 
>>> mo.group(@) 


"415-555-4242' 
>>> mo.group() 


"415-555-4242' 





如 果 想 要 一 次 就 获取 所 有 的 分 组 ， 请 使 用 groups0 方 法 ， 注 意 函 数 
名 的 复数 形式 。 


>>> mo.groups() 


('415', '555-4242') 
>>> areaCode, mainNumber = mo.groups() 


>>> print(areaCode) 


415 
>>> print (mainNumber ) 


555-4242 





因为 mo.groupsO 返 回 多 个 值 的 元 组 ， 所 以 你 可 以 使 用 多 重复 制 的 技 





巧 ， 每 个 值 赋 给 一 个 独立 的 变量 ， 束 像 前 面 的 代码 行 : areaCode， 
mainNumber = mo.groups()。 





括 写 在 正则 表达 式 中 有 特殊 的 含义 ， 但 是 如 果 你 需要 在 文本 中 匹配 
括号 ， 怎 么 办 ? 例如 ， 你 要 匹配 的 电话 号 码 ， 可 能 将 区 号 放 在 一 对 括号 
中 。 在 这 种 情况 下 ， 残 需要 用 倒 斜 杠 对 (和 ) 进 行 字符 转 义 。 在 交互 式 环 
境 中 输入 以 下 代码 : 








>>> phoneNumRegex = re.compile(r'(\(\d\d\d\)) (\d\d\d-\d\d\d\d)') 


>>> mo = phoneNumRegex.search('My phone number is (415) 555-4242.') 


>>> mo.group(1) 


' (415) ' 
>>> mo.group(2) 


'555-4242' 





传递 给 re.compile() 的 原始 字符 串 中 ，( 和 ) 转 义 字 符 将 匹配 实际 的 括 


O, > 5A 


Sts 


7.3.2 用 管道 匹配 多 个 分 组 


字符 | 称 为 “管道 ”。 希 望 光 配 许 多 表达 式 中 的 一 个 时 ， 就 可 以 使 用 
。 例 如 ， 正 则 表达 式 r Batman|Tina Fey' 将 匹配 'Batman' 或 'Tina Fey'。 


如 果 Batman 和 Tina Fey 都 出 现在 被 查找 的 字符 串 中 ， 第 一 次 出 现 的 
匹配 文本 ， 将 作为 Match 对 象 返 回 。 在 交互 式 环 境 中 输入 以 下 代码 : 











>>> heroRegex = re.compile (r'Batman|Tina Fey') 


>>> mo1 = heroRegex.search('Batman and Tina Fey.') 


>>> mo1.group() 


"Batman' 


>>> mo2 = heroRegex.search('Tina Fey and Batman. ') 


>>> mo2.group() 


"Tina Fey' 





利用 findall0 方 法 ， 可 以 找到 “所 有 ”匹配 的 地 方 。 这 在 7.5 节 “findall0 方 法 ”中 讨论 。 











也 可 以 使 用 管道 来 匹配 多 个 模式 中 的 一 个 ， 作 为 正则 表达 式 的 一 部 
分 。 例 如 ， 假 设 你 希望 匹 
配 'Batman'、'Batmobile'、'Batcopter 和 'Batbat' 中 任意 一 个 。 因 为 所 有 这 
些 字 符 串 都 以 Bat 开 始 ， 所 以 如 果 能 够 只 指定 一 次 前 级 ， 束 很 方便 。 这 
可 以 通过 插 写 实现 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> batRegex = re.compile(r'Bat(man|mobile|copter|bat)') 








>>> mo = batRegex.search('Batmobile lost a wheel') 


>>> mo.group() 


"Batmobile' 
>>> mo.group(1) 


"mobile' 





方法 调用 mo.group0 返 回 了 完全 匹配 的 文本 'Batmobile'， 而 
mo.group(1) 是 返回 第 一 个 括号 分 组 内 匹配 的 文本 "mobile'。 通 过 使 用 管 


道 字 符 和 分 组 括号 ， 可 以 指定 几 种 可 选 的 模式 ， 让 正则 表达 式 去 匹配 。 





如 果 需 要 匹配 真正 的 管道 字符 ， 就 用 倒 斜 杠 转 义 ， 即 |。 
7.3.3 用 问号 实现 可 选 匹 配 
有 时 候 ， 想 匹配 的 模式 是 可 选 的 。 就 是 说 ， 不 论 这 段 文本 在 不 在 ， 


正则 表达 陈 都 会 认为 匹配 。 字 符 ? 表 明 筷 前 面 的 分 组 在 这 个 模式 中 是 可 
选 的 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> batRegex = re.compile(r'Bat(wo)?man') 











>>> mo1 = batRegex.search('The Adventures of Batman ' ) 


>>> mo1.group() 


"Batman' 


>>> mo2 = batRegex.search('The Adventures of Batwoman' ) 


>>> mo2.group() 


"Batwoman' 





正则 表达 式 中 的 (wo)? 部 分 表明 ， 模 式 wo 是 可 选 的 分 组 。 该 正则 表 
达 式 罗 配 的 文本 中 ，wo 将 出 现 零 次 或 一 次 。 这 束 是 为 什么 正则 表达 式 


既 匹 配 'Batwoman'， 义 匹配 '"Batman'。 


利用 前 面 电话 号 码 的 例子 ， 你 可 以 让 正则 表达 式 寻 找 包 含 区 写 或 不 
包含 区 号 的 电话 号 码 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> phoneRegex = re.compile(r' (\d\d\d-)?\d\d\d-\d\d\d\d') 





>>> mo1 = phoneRegex.search('My number is 415-555-4242 ' ) 


>>> mo1.group() 


"415-555-4242' 
>>> mo2 = phoneRegex.search('My number is 555-4242") 


>>> mo2.group() 


"555-4242' 





你 可 以 认为 ?是 在 说 , “匹配 这 个 问号 之 前 的 分 组 零 次 或 一 次 ”。 








如 采 需 要 匹配 真正 的 问号 字符 ， 就 使 用 转 义 字符 \?。 
7.3.4 用 星 号 匹配 零 次 或 多 次 


* MARS) 意味 着 “匹配 零 次 或 多 次 ”， 即 星 号 之 前 的 分 组 ， 可 
以 在 文本 中 出 现任 意 次 。 它 可 以 完全 不 存在 ， 或 一 次 又 一 次 地 重复 。 让 




















我 们 再 来 看 看 Batman 的 例子 。 





>>> batRegex = re.compile(r'Bat(wo)*man' ) 


>>> mo1 = batRegex.search('The Adventures of Batman’) 


>>> mo1.group() 


"Batman' 


>>> mo2 = batRegex.search('The Adventures of Batwoman ) 


>>> mo2.group() 


"Batwoman' 


>>> mo3 = batRegex.search('The Adventures of Batwowowowoman' ) 


>>> mo3.group() 


"Batwowowowoman' 





对 于 'Batman'"， 正 则 表达 式 的 (wo) 部 分 匹配 wo 的 零 个 实例 。 对 
¥ 'Batwoman', (wo) 匹配 wo 的 一 个 实例 。 对 于 'Batwowowowoman'， 


(wo)* 匹 配 wo 的 4 个 实例 。 











如 果 需 要 匹配 真正 的 星 号 字符 ， 就 在 正则 表达 式 的 星 号 字符 前 加 上 
倒 斜 本， 即 *。 


7.3.5 用 加 号 匹配 一 次 或 多 次 


* 意 味 着 “匹配 零 次 或 多 次 *，+ (加 号 ) 则 意味 着 "匹配 一 次 或 多 
次 "。 星 号 不 要 求 分 组 出 现在 匹配 的 字符 串 中 ， 但 加 号 不 同 ， 加 号 前 面 
的 分 组 必须 “至 少 出 现 一 次 ”。 这 不 是 可 选 的 。 在 交互 式 环境 中 输入 以 下 
代码 ， 把 它 和 前 一 节 的 星 号 正则 表达 式 进行 比较 : 

















>>> batRegex = re.compile(r'Bat(wo)+man' ) 


>>> mo1 = batRegex.search('The Adventures of Batwoman' ) 


>>> mo1.group() 


"Batwoman' 


>>> mo2 = batRegex.search('The Adventures of Batwowowowoman' ) 


>>> mo2.group() 


"Batwowowowoman' 


>>> mo3 = batRegex.search('The Adventures of Batman’) 


>>> mo3 == None 


True 





正则 表达 式 Bat(wo)+man 不 会 匹配 字符 串 'The Adventures of 
Batman'， 因 为 加 号 要 求 wo 至 少 出 现 一 次 。 








如 琳 需 要 匹配 真正 的 加 号 人 字符， 在 加 号 前 面 加 上 倒 斜 杠 实现 转 义 : 


十 。 


7.3.6 用 人 花 括号 匹配 特定 次 数 


如 果 想 要 一 个 分 组 重复 特定 次 数 ， 就 在 正则 表达 式 中 该 分 组 的 后 
面 ， 跟 上 花 括 号 包围 的 数字 。 例 如 ， 正 则 表达 式 (Ha){3} 将 匹配 字符 
串 'HaHaHa'， 但 不 会 匹配 'HaHa'， 因 为 后 者 只 重复 了 (Ha) 分 组 两 次 。 





除了 一 个 数字 ， 还 可 以 指定 一 个 范围 ， 即 在 花 括 号 中 写 下 一 个 最 小 
值 、 一 个 逗号 和 一 个 最 大 值 。 例 如 ， 正 则 表达 式 (Ha){3,5} 将 匹 
配 'HaHaHa'、'HaHaHaHa' 和 'HaHaHaHaHa'。 


也 可 以 不 写 花 括号 中 的 第 一 个 或 第 二 个 数字 ， 不 限定 最 小 值 或 最 大 
值 。 例 如 ，(Ha){3,} 将 匹配 3 次 或 更 多 次 实例 ，(Ha){,5} 将 匹配 0 到 5 次 实 
例 。 花 括号 让 正则 表达 式 更 简短 。 这 两 个 正则 表达 式 匹 配 同样 的 模式 ; 




















(Ha) {3} 
(Ha) (Ha) (Ha) 





这 两 个 正则 表达 式 也 匹配 同样 的 模式 : 


(Ha) {3,5} 
( (Ha) (Ha) (Ha) ) | ((Ha) (Ha) (Ha) (Ha) ) | ((Ha) (Ha) (Ha) (Ha) (Ha) ) 





在 交互 式 环境 中 输入 以 下 代码 : 





>>> haRegex = re.compile(r' (Ha){3}') 


>>> mo1 = haRegex.search('HaHaHa') 


>>> mo1.group() 


"HaHaHa ' 


>>> mo2 = haRegex.search('Ha') 


>>> mo2 == None 


True 





这 里 ，(Ha){3} 罗 配 'HaHaHa'"， 但 不 匹配 'Ha'。 因 为 它 不 匹配 'Ha'"， 所 
以 search(0) 返 回 None。 


7.4 Fly ASE Hel DL AC 


在 字符 串 'HaHaHaHaHa' 中 ， 因 为 (Ha){3,5} 可 以 匹配 3 个 、4 个 或 5 个 
实例 ， 你 可 能 会 想 ， 为 什么 在 前 面 花 括号 的 例子 中 ，Match 对 象 的 
group() 调 用 会 返回 'HaHaHaHaHa'"， 而 不 是 更 短 的 可 能 结果 。 毕 
竟 ，'HaHaHa 和 'HaHaHaHa' 也 能 够 有 效 地 匹配 正则 表达 式 (Ha){3,5}。 


Python 的 正则 表达 式 默 认 是 “ 贫 心 ”的 ， 这 表示 在 有 二 义 的 情况 下 ， 
它们 会 尽 可 能 匹配 最 长 的 字符 串 。 花 括号 的 “ 非 贫 心 "版 本 匹配 尽 可 能 最 
短 的 字符 串 ， 即 在 结束 的 花 括 号 后 跟着 一 个 问号 。 











在 交互 式 环 境 中 输入 以 下 代码 ， 注 音 在 伍 找 相同 字符 串 时 ， 花 括号 
的 贪心 形式 和 非 贪 心 形式 之 间 的 区 别 : 


>>> greedyHaRegex = re.compile(r'(Ha){3,5}') 


>>> mol = greedyHaRegex.search('HaHaHaHaHa ) 


>>> mo1.group() 


"HaHaHaHaHa' 


>>> nongreedyHaRegex = re.compile(r' (Ha) {3,5}?') 


>>> mo2 = nongreedyHaRegex.search( 'HaHaHaHaHa' ) 


>>> mo2.group() 


"HaHaHa' 








请 注意 ， 问 号 在 正则 表达 式 中 可 能 有 两 种 含义 : 声明 非 贪心 匹配 或 
表示 可 选 的 分 组 。 这 两 种 含义 是 完全 无 关 的 。 


7.5 findall() 7 


除了 search 方 法 外 ，Regex 对 象 也 有 一 个 findall() 方 法 。search() 将 返 
回 一 个 Match 对 象 ， 包 含 被 查找 字符 串 中 的 “第 一 次 ”匹配 的 文本 ， 而 
findall(0) 方 法 将 返回 一 组 字符 串 ， 包 含 被 查找 字符 串 中 的 所 有 匹配。 为 
了 看 看 search() 人 返回 的 Match 对 象 只 包含 第 一 次 出 现 的 匹配 文本 ， 请 在 交 
互 式 环境 中 输入 以 下 代码 : 


>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') 


>>> mo = phoneNumRegex.search('Cell: 415-555-9999 Work: 212-555-0000" ) 


>>> mo.group() 


"415-555-9999' 





一 方面 ，findall0) 不 是 返回 一 个 Match 对 象 ， 而 是 返回 一 个 字符 串 
i 只 要 在 正则 表达 式 中 没有 分 组 。 列 表 中 的 每 个 字符 串 都 是 一 段 被 
查找 的 文本 ， 它 匹 配 该 正则 表达 式 。 在 交互 式 环境 中 输入 以 下 代码 : 








>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # has no groups 


>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-00@0' ) 


['415-555-9999', '212-555-0000' | 





如 果 在 正则 表达 式 中 有 分 组 ， 那 么 findal] 将 返回 元 组 的 列表 。 每 个 
元 组 表示 一 个 找到 的 匹配 ， 其 中 的 项 就 是 正则 表达 式 中 每 个 分 组 的 匹配 
字符 串 。 为 了 看 看 findall0 的 效果 ， 请 在 交互 式 环境 中 输入 以 下 代码 
〈 请 注意 ， 被 编译 的 正则 表达 式 现在 有 括号 分 组 ) : 


>>> phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)') # has group 


>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-00@0' ) 


[('415', '555', '1122'), ('212', '555', '@000')] 





作为 findall0 方 法 的 返回 结果 的 总 结 ， 请 记 住 下 面 两 点 : 

1. 如 果 调 用 在 一 个 没有 分 组 的 正则 表达 式 上 ， 例 如 \d\d\d-\d\d\d- 
\d\d\d\d， 方 法 findall0 将 返回 一 个 匹配 字符 串 的 列表 ， 例 如 ['415-555- 
9999', '212-555-0000']. 


2. 如 果 调 用 在 一 个 有 分 组 的 正则 表达 式 上 ， 例 如 Q(d\d\d)-(d\d\d)- 


Qd\d\d\d)， 方 法 findall(0) 将 返回 一 个 字符 串 的 元 组 的 列表 (每 个 分 组 对 应 
一 个 字符 串 ) ， 例 如 [(415','555', '1122"), ('212', '555', '0000')]. 


在 前 面 电话 号 码 正 则 表达 式 的 例子 中 ， 你 知道 \d 可 以 代表 任何 数 
字 。 也 就 是 说 ，\d 是 正则 表达 式 (0|1|2|3|4|5|6|7|8|9) 的 缩写 。 有 许多 这 样 
的 “缩写 字符 分 类 ”， 如 表 7-1 所 示 。 


表 7-1 常用 字符 分 类 的 缩写 代码 








除 0 到 9 的 数字 以 外 的 任何 字符 


任何 字母 、 数 字 或 下 划 线 字符 (可 以 认为 是 匹配 “单词 "字符 ) 


PS AT 


可 字符 








王 何 字符 











FAFA 类 对 于 缩短 正则 表达 式 很 有 用 。 字 符 分 类 [0-5] 只 匹配 数字 0 
到 5， 这 比 输 入 (0|1|2|3|4|5) 要 短 很 多 。 


例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 





>>> xmasRegex = re.compile(r'\d+\s\w+') 


>>> xmasRegex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 


swans, 6 geese, 5 rings, 4 birds, 3 hens, 2 doves, 1 partridge’ ) 


['12 drummers', '11 pipers’, '10 lords', '9 ladies', '8 maids', '7 swans’, 
geese', '5 rings', '4 birds', '3 hens', '2 doves', '1 partridge’ | 





EWKA SM \d+\s\w+ DOACHY SCAR AE PS TIS (d+), Be PARE 


一 个 空白 字符 Cs)， 接 下 来 是 一 个 或 多 个 字母 /数字 /下 划 线 字符 (w+)。 
0 


7.7 建立 上 自己 的 字符 分 类 


_ 有 时 候 你 想 匹 配 一 组 字符 ， 但 缩写 的 字符 分 类 Ad, \w, \s 等 ) 太 
宽泛 。 你 可 以 用 方 括号 定义 目 己 的 字符 分 类 。 例 如 ， 字 符 分 类 
[aeiouAEIOU] 将 匹配 所 有 元 音字 符 ， 不 论 大 小 写 。 在 交互 式 环境 中 输入 


以 下 代码 : 











>>> vowelRegex = re.compile(r' [aeiouAEIOU] ' ) 


>>> vowelRegex.findall('RoboCop eats baby food. BABY FOOD.') 











也 可 以 使 用 短 横 表示 字母 或 数字 的 范围 。 例 如 ， 字 符 分 类 [a-zA-Z0- 
9] 将 匹配 所 有 小 写字 母 、 大 写字 母 和 数字 。 


请 注意 ， 在 方 括号 内 ， 普 通 的 正则 表达 式 符 号 不 会 被 解释 。 这 意味 
着 ， 你 不 需要 前 面 加 上 倒 斜 杠 转 义 .、*、? 或 0 字符 。 例 如 ， 字 符 分 类 将 
匹配 数字 0 到 5 和 一 个 句点 。 你 不 需要 将 它 写 成 [0-5.]。 


通过 在 字符 分 类 的 无 方 括号 后 加 上 一 个 插入 字符 〈^) ， 束 可 以 得 
到 * 非 字符 类 ”。 非 字符 类 将 匹配 不 在 这 个 字符 类 中 的 所 有 字符 。 例 如 ， 
在 交互 式 环境 中 输入 以 下 代码 : 











>>> consonantRegex = re.compile(r'[^aeiouAEIOU]') 


>>> consonantRegex.findall('RoboCop eats baby food. BABY FOOD.') 

















现在 ， 不 是 匹配 所有 元 音字 符 ， 而 是 匹配 所 有 非 元 音字 符 。 


7.8 插入 字符 和 美元 字符 


可 以 在 正则 表达 陈 的 开始 处 使 用 播 入 符号 〈^) ， 表 明 匹 配 必须 友 
生 在 和 梓 碍 找 文 本 开始 处 。 类 似 地 ， 可 以 再 正则 表达 式 的 末尾 加 上 美元 符 
号 〈$) ， 表 示 该 字符 串 必 须 以 这 个 正则 表达 式 的 模式 结束 。 可 以 同时 
使 用 ^ 和 $， 表 明 整 个 字符 串 必须 匹配 该 模式 ， 也 就 是 说 ， 只 匹配 该 字符 
串 的 某 个 子 集 是 不 够 的 。 


例如 ， 正 则 表达 式 PrAHello' 匹 配 以 'Hello' 开 始 的 字符 串 。 在 交互 式 环 
境 中 输入 以 下 代码 : 








>>> beginsWithHello = re.compile(r'^Hello') 


>>> beginsWithHello.search('Hello world!') 


< _sre.SRE_Match object; span=(@, 5), match='Hello'> 
>>> beginsWithHello.search('He said hello.') == None 





正则 表达 式 r\d$' 史 配 以 数字 0 到 9 结束 的 字符 串 。 在 交互 式 环 境 中 输 
入 以 下 代码 : 


>>> endsWithNumber = re.compile(r'\d$') 


>>> endsWithNumber.search('Your number is 42') 


< _sre.SRE_Match object; span=(16, 17), match='2'> 
>>> endsWithNumber.search('Your number is forty two.') == None 


True 








正则 表达 式 rAd+$ VE AC MIF oe BAR AB Ee FEATS © FESS BK 
环境 中 输入 以 下 代码 : 





>>> wholeStringIsNum = re.compile(r'^\d+$') 


>>> wholeStringIsNum. search('1234567890' ) 


< _sre.SRE_Match object; span=(@, 10), match='1234567890' > 
>>> wholeStringIsNum. search('12345xyz67890') == None 


True 


>>> wholeStringIsNum.search('12 34567890') == None 


True 








前 面 交互 式 脚本 例子 中 的 最 后 两 次 search0 调 用 表明 ， 如 果 使 用 了 ^ 
和 $， 那 么 整个 字符 串 必须 匹配 该 正则 表达 式 。 








我 总 是 会 混淆 这 两 个 符号 的 含义 ， 所 以 我 使 用 助 记 法 “Carrots cost 
dollars”， 提 醒 我 插入 符号 在 前 面 ， 美 元 符号 在 后 面 。 


7.9 通 配 字 符 


在 正则 表达 式 中 ，. (句点) 字符 称 为 “通配符 ”。 它 匹配 除了 换行 之 
外 的 所 有 字符 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> atRegex = re.compile(r'.at') 


>>> atRegex.findall('The cat in the hat sat on the flat mat.') 





要 记 住 ， 句 点 字符 只 匹配 一 个 字符 ， 这 就 是 为 什么 在 前 面 的 例子 
中 ， 对 于 文本 flat， 只 匹配 lat。 要 匹配 真正 的 句点 ， 就 是 用 倒 斜 杠 转 
ER 


7.9.1 用 点 - 星 匹 配 所 有 字符 


有 时 候 想 要 匹配 所 有 字符 串 。 人 例如， 假定 想 要 匹配 字符 串 'Eirst 
Name:'"， 接 下 来 是 任意 文本 ， 接 下 来 是 Last Name:'， 然 后 又 是 任意 文 
本 。 可 以 用 点 - 星 〈.*) 表示 “任意 文本 ”。 回 忆 一 下 ， 句 点 字符 表示 “ 除 
换行 外 所 有 单个 字符 ”， 星 号 字符 表示 “前 面 字 符 出 现 零 次 或 多 次 ”。 


在 交互 式 环境 中 输入 以 下 代码 : 

















>>> nameRegex = re.compile(r'First Name: (.*) Last Name: (.*)') 


>>> mo = nameRegex.search('First Name: Al Last Name: Sweigart' ) 


>>> mo.group(1) 


"AlL' 
>>> mo.group(2) 


"Sweigart' 











点 - 星 使 用 贪心” 便 式 : 它 总 是 匹配 尽 可 能 多 的 文本 。 要 用 * 非 贫 
心 ” 模 式 匹 配 所 有 文本 ， 束 使 用 点 - 星 和 问号 。 像 和 大 括号 一 起 使 用 时 那 
样 ， 问 号 告诉 Python 用 非 贪 心 模式 匹配 。 在 交互 式 环境 中 输入 以 下 代 
码 ， 看 看 贫 心 模式 和 非 贫 心 模式 的 区 别 : 





>>> nongreedyRegex = re.compile(r'<.*?>') 


>>> mo = nongreedyRegex.search(' for dinner.>') 


>>> mo.group() 


"< To serve man>' 


>>> greedyRegex = re.compile(r'<.*>') 


>>> mo = greedyRegex.search(' for dinner.>') 


>>> mo.group() 


'< To serve man> for dinner.>' 


两 个 正则 表达 式 都 可 以 翻译 成 < 匹配 一 个 左 尖 括 号 ， 接 下 来 是 任意 
字符 ， 接 下 来 是 一 个 右 尖 括号 ”"。 但 是 字符 串 '<To serve man> for 
dinner.>' 对 右 启 括号 有 两 种 可 有 g 的 匹配 ， 在 非 贪心 的 正则 表达 式 中 ， 
Python 匹配 最 短 可 能 的 字符 串 : '<To serve man>'。 在 贪心 版 本 中 ， 
Python 匹配 最 长 可 能 的 字符 串 : '<To serve man> for dinner.>'. 


7.9.2 用 句点 字符 匹配 换行 
星 将 匹配 除 换行 外 的 所 有 字符 。 通 过 传 入 re.DOTALEL 作 为 


re. compiled Hat AAK, 可 以 让 名 点 字符 匹配 所 有 字符 ， 包 括 换行 字 
符 。 








在 交互 式 环 境 中 输入 以 下 代码 : 





>>> noNewlineRegex = re.compile('.*') 


>>> noNewlineRegex.search('Serve the public trust.\nProtect the innocent. 


\nUphold the law.').group() 


"Serve the public trust. ' 


>>> newlineRegex = re.compile('.*', re.DOTALL) 


>>> newlineRegex.search('Serve the public trust.\nProtect the innocent. 


\nUphold the law.').group() 


"Serve the public trust.\nProtect the innocent.\nUphold the law. ' 





正则 表达 式 noNewlineRegex 在 创建 时 没有 癌 re.compileO 传 入 
re.DOTALL， 它 将 匹配 所 有 字符 ， 直 到 第 一 个 换行 字符 。 但 是 ， 
newlineRegex 在 创建 时 向 re.compile() 传 入 了 re.DOTALL， 它 将 匹配 所 有 
字符 。 这 就 是 为 什么 newlineRegex.search0) 调 用 匹配 完整 的 字符 串 ， 包 括 
其 中 的 换行 字符 。 


7.10 正则 表达 式 和 从 号 复习 
本 章 介绍 了 许多 表示 法 ， 所 以 这 里 快速 复习 一 下 学 到 的 内 容 : 


。 ?匹配 零 次 或 一 次 前 面 的 分 组 。 
。* 隐 配 零 次 或 多 次 前 面 的 分 组 。 
。 + 匹配 一 次 或 多 次 前 面 的 分 组 。 
。 {n} 匹 配 nn 次 前 面 的 分 组 。 

。 {n,} 匹 配 n 次 或 更 多 前 面 的 分 组 。 
。 {m} 匹 配 零 次 到 mm 次 前 面 的 分 组 。 











fnml} 匹 配 至 少 n 次 、 至 多 mm 次 前 面 的 分 组 。 
{n,m}? 或 *? 或 +? 对 前 面 的 分 组 进行 非 贪心 匹配 。 
^spam 意 味 着 字符 串 必须 以 spam 开 始 。 

spam$ 意 味 着 字符 串 必须 以 spam 结 
.匹配 所 有 字符 ， 换 行 符 除外 。 





\d、W 和 \s 分 别 匹 配 数字 、 单 词 和 空格 。 

\D、\W 和 和 \S 分 别 匹配 出 数字 、 单 词 和 空格 外 的 所 有 字符 。 
[abc] 匹 配方 括号 内 的 任意 字符 (诸如 a、b 或 c) 。 
[Aabc] 匹 配 不 在 方 括号 内 的 任意 字符 。 


7.11 不 区 分 大 小 写 的 匹配 


通常 ， 正 则 表达 式 用 你 指定 的 大 小 写 匹配 文本 。 例 如 ， 下 面 的 正则 
表达 式 匹 配 完 全 不 同 的 字符 串 : 


>>> regex1 = re.compile('RoboCop' ) 


>>> regex2 = re.compile('ROBOCOP' ) 


>>> regex3 = re.compile('robOcop' ) 


>>> regex4 = re.compile('RobocOp' ) 





但 是 ， 有 时 候 你 只 关心 匹配 字母 ， 不 关心 它们 是 大 写 或 小 写 。 要 让 
正则 表达 式 不 区 分 大 小 写 ， 可 以 向 re.compileO 传 入 re.IGNORECASE 或 
re.I， 作 为 第 二 个 参数 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> robocop = re.compile(r'robocop', re.I) 


>>> robocop.search('RoboCop is part man, part machine, all cop.').group() 


"RoboCop ' 


>>> robocop.search('"ROBOCOP protects the innocent.').group() 


"ROBOCOP ' 


>>> robocop.search('Al, why does your programming book talk about robocop s 


"Pobocop 





7.12 用 sub() 方 法 蔡 换 字符 串 


正则 表达 式 不 仅 能 找到 文本 模式 ， 而 且 能 够 用 新 的 文本 蔡 换 抒 这 些 
模式 。Regex 对 象 的 sub() 方 法 需要 传 入 两 个 参数 。 第 一 个 参数 是 一 个 字 
符 串 ， 用 于 取代 发 现 的 匹配 。 第 二 个 参数 是 一 个 字符 串 ， 即 正则 表达 
式 。sub(0) 方 法 返回 蔡 换 完成 后 的 字符 串 。 


例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 





>>> namesRegex = re.compile(r'Agent \w+') 


>>> namesRegex.sub('CENSORED', ‘Agent Alice gave the secret documents to Ag 


"CENSORED gave the secret documents to CENSORED. ' 





有 时 候 ， 你 可 能 需要 使 用 匹配 的 文本 本 身 ， 作 为 蔡 换 的 一 部 分 。 在 
sub() 的 第 一 个 参数 中 ， 可 以 输入 \1、\2、\3...... 。 表 示 “ 在 蔡 换 中 输入 分 
BET DS Bios. 的 文本 ”。 


例如 ， 假 定 想 要 隐 去 密探 的 姓名 ， 只 显示 他 们 姓名 的 第 一 个 字母 。 
要 做 到 这 一 点 ， 可 以 使 用 正则 表达 式 Agent Mwjw， 传 入 rn\1 * 作 为 sub() 
的 第 一 个 参数 。 字 符 串 中 的 \1 将 由 分 组 1 匹配 的 文本 所 蔡 代 ， 也 就 是 正 
则 表达 式 的 (w) 分 组 。 





>>> agentNamesRegex = re.compile(r'Agent (\w)\w*') 


>>> agentNamesRegex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent 


Eve knew Agent Bob was a double agent.' ) 


A**** told C**** that E**** knew B**** was a double agent. ' 





7.13 EHR AR HY ENRE 








如 果 要 匹配 的 文本 模式 很 简单 ， 正 则 表达 式 就 很 好 。 但 匹配 复杂 的 
文本 模式 ， 可 能 需要 长 的 、 费 解 的 正则 表达 式 。 你 可 以 告诉 
re.compile()， 忽 略 正则 表达 式 字 符 串 中 的 空白 符 和 注释 ， 从 而 绥 解 这 一 
点 。 要 实现 这 种 详细 模式 ， 可 以 向 re.compile0 传 入 变量 re.VERBOSE， 
作为 第 二 个 参数 。 


现在 ， 不 必 使 用 这 样 难以 阅读 的 正则 表达 式 : 





phoneRegex = re.compile(r'((\d{3}|\(\d{3}\))?(\s|-|\.)?\d{3}(\s|-|\.)\d{4} 
(\s*(ext|x|ext.)\s*\d{2,5})?)') 





你 可 以 将 正则 表达 式 放 在 多 行 中 ， 并 加 上 注释 ， 像 这 样 : 


phoneRegex = re.compile(r'''( 
(\d{3}1\(\d{3}\))? area code 
(\s|-|\.)? separator 
\d{3} first 3 digits 
(\s|-|\.) separator 
\d{4} last 4 digits 


(\s*(ext|x|ext.)\s*\d{2,5})? extension 
)''', re.VERBOSE) 





请 注意 ， 前 面 的 例子 使 用 了 三 重 引 号 (")， 创 建 了 一 个 多 行 字符 


Po ROPE BL AY DURE IE MU AeA UE MBE BT, TEE EAT TSE. 


正则 表达 陈 字 符 串 中 的 注释 规则 ， 与 普通 的 Python 代码 一 样 : HF 
号 和 它 后 面 直到 行 末 的 内 容 ， 痢 被 忽略 。 而 且 ， 表 示 正 则 表达 式 的 多 行 
字符 串 中 ， 多 余 的 空白 字符 也 不 认为 是 要 匹配 的 文本 模式 的 一 部 分 。 这 
让 你 能 够 组 织 正 则 表达 式 ， 让 它 更 可 读 。 





7.14 组 合 使 用 re.IGNOREC ASE、re.DOTALL 和 
re. VERBOSE 


如 果 你 希望 在 正则 表达 式 中 使 用 re.VERBOSE 来 编写 注释 ， 还 希望 
使 用 re.IGNORECASE 来 忽略 大 小 写 ， 该 怎么 办 ? 遗憾 的 是 ， 
re.compile() 函 数 只 接受 一 个 值 作为 它 的 第 二 参数 。 可 以 使 用 管道 字符 
a ， 从 而 绕 过 这 个 限制 。 管 道 字符 在 这 里 称 为 “ 按 位 
或 ”操作 符 。 


所 以 ， 如 果 希 望 正则 表达 式 不 区 分 大 小 写 ， 并 且 句 点 字符 匹配 换 
行 ， 就 可 以 这 样 构 造 re.compile() 调 用 : 


>>> someRegexValue = re.compile('foo', re.IGNORECASE | re.DOTALL) 





使 用 第 二 个 参数 的 全 部 3 个 选项 ， 看 起 来 像 这 样 : 





>>> someRegexValue = re.compile('foo', re.IGNORECASE | re.DOTALL | re.VERB 


这 个 语法 有 一 点 老式 ， 源 自 于 早期 的 Python 版 本 。 位 运算 符 的 细节 
超出 了 本 书 的 范围 ， 更 多 的 信息 请 查看 资源 
http://nostarch.com/automatestuff/ 。 可 以 同 第 二 个 参数 传 入 其 他 选项 ， 它 
们 不 常用 ， 但 你 也 可 以 在 前 面 的 资源 中 找到 有 关 它 们 的 信息 。 


7.15 QA: 电话 号码 和 E-mail 地 址 提取 程序 


假设 你 有 一 个 无 聊 的 任务 ， 要 在 一 篇 长 的 网 页 或 文章 中 ， 找 出 所 有 
电话 号 码 和 邮件 地 址 。 如 果 手 动 翻 页 ， 可 能 需要 得 找 很 长 时 间 。 如 果 有 
一 个 程序 ， 可 以 在 攀 贴 板 的 文本 中 会 找 电 话 号 码 和 E-mail 地 址 ， 那 你 就 
只 要 按 一 下 Ctrl-A 选 择 所 有 文本 ， 按 下 Cul-C 将 它 复制 到 筋 贴 板 ， 然 后 运 
ne 
文本 。 


当 你 开始 接手 一 个 新 项 目 时 ， 很 容易 想 要 直接 开始 写 代 码 。 但 更 多 
的 时 候 ， 最 好 是 后 退 一 步 ， 考 虑 更 大 的 图 景 。 我 建议 先 草 拟 高 层次 的 计 
划 ， 乔 清楚 程序 需要 做 什么 。 暂 时 不 要 思考 真正 的 代码 ， 稍 后 再 来 考 
Eo ME, PREKER. 


例如 ， 你 的 电话 号 码 和 E-mail 地 址 提取 程序 需要 完成 以 下 任务 : 
MBI WEAR ERAS SLAB o 

。 找 出 文本 中 所 有 的 电话 号 码 和 E-mail 地 址 。 

。 RETA E BY ME AK 


We 0 ee 0 en 
情 : 




















。 使 用 pyperclip 模 块 复制 和 粘贴 字符 串 。 

。 创建 两 个 正则 表达 式 ， 一 个 匹配 电话 号 码 ， 另 一 个 匹配 E-mail 地 
bik. 

。 对 两 个 正则 表达 式 ， 找 到 所 有 的 匹配 ， 而 不 只 是 第 一 次 匹配 。 

。 将 匹配 的 字符 串 整 理 好 格式 ， 放 在 一 个 字符 串 中 ， 用 于 粘贴 。 





。 如 果 文 本 中 没有 找到 匹配 ， 显 示 茶 种 消 乱 。 
这 个 列表 就 像 项 目的 路 线 图 。 在 编写 代码 时 ， 可 以 独立 地 关注 其 中 


ee 
故 。 


第 1 步 : 为 电话 号码 创 建 一 个 正则 表达 式 


首先 ， 你 需要 创建 一 个 正则 表达 式 来 查找 电话 号码 。 创 建 一 个 新 文 
件 ， 输 入 以 下 代码 ， 保 存 为 phoneAndEmail.py: 








#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboa 


import pyperclip, re 


phoneRegex = re.compile(r'''( 
(\d{3}1\(\d{3}\))? # area code 
(\s|-|\.)? # separator 
(\d{3}) # first 3 digits 
(\s|-|\.) # separator 
(\d{4}) # last 4 digits 


(\s*(ext|x|ext.)\s*(\d{2,5}))? # extension 
)''', re.VERBOSE) 


# TODO: Create email regex. 
# TODO: Find matches in clipboard text. 


# TODO: Copy results to the clipboard. 





i A R 


电话 号 码 从 一 个 “可 选 的 ?区 号 开始 ， 所 以 区 号 分 组 跟着 一 个 问号 。 
因为 区 号 可 能 只 是 3 个 数字 〈 即 \d{3}) ， 或 括号 中 的 3 个 数字 CBN 
(\d{3})) ， 所 以 应 该 用 管道 符号 连接 这 两 部 分 。 可 以 对 这 部 分 多 行 字符 
串 加 上 正则 表达 式 注释 # Area code， 帮 助 你 记忆 (d{3}IQd{3}))? 要 匹配 














的 是 什么 。 


电话 号 码 分 制 字 符 可 以 是 空格 Os) 、 短 横 〈-) 或 句点 (.) ， 所 
以 这 些 部 分 也 应 该 用 管道 连接 。 这 个 正则 表达 式 接 下 来 的 几 部 分 很 简 
单 : 3 个 数字 ， 接 下 来 是 兄 一 个 分 割 符 ， 接 下 来 是 4 个 数字 。 节 后 的 部 分 
人 
立 数字 。 


第 2 步 : 为 E-mail 地 址 创建 一 个 正则 表达 式 


还 需要 一 个 正则 表达 式 来 匹配 E-mail 地 址 。 让 你 的 程序 看 起 来 像 这 
样 : 








#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipb 
import pyperclip, re 


phoneRegex = re.compile(r'''( 
--_snip_-- 


# Create email regex. 


emailRegex = re.compile(r'''( 


[a-zA-Z0-9. %+-]+ # username 


# @ symbol 





3) [a-zA-Z0-9.-]+ # domain name 


(\.[a-ZA-Z]{2,4}) # dot-something 


)''', re. VERBOSE) 


# TODO: Find matches in clipboard text. 


# TODO: Copy results to the clipboard. 





E-mailt h KHA ERDO EARE REA, RAPA LTE: 小 











写 和 大 写字 母 、 数 字 、 句 点 、 下 划 线 、 百 分 号 、 加 号 或 短 横 。 可 以 将 所 
有 这 些 放 入 一 个 字符 分 类 : [a-zA-Z0-9._%+-]。 


域名 和 用 户 名 用 @ 符 号 分 割 信 ， 域 名 全 @ 人 允许 的 字符 分 类 要 少 一 些 ， 
只 人 允许 字母 、 数 字 、 句 点 和 短 横 : [a-zA-Z0-9.-]。 最 后 是 “dot-com” 部 分 
《技术 上 称 为 "顶级 域名 ”) ， 它 实际 上 可 以 是 “dot-anything”。 它 有 2 到 4 
A Be Phe 
夏子 付 。 


E-mail 地 址 的 格式 有 许多 奇怪 的 规则 。 这 个 正则 表达 式 不 会 匹配 所 
有 可 能 的 、 有 效 的 E-mail 地 址 ， 但 它 会 匹配 你 遇 到 的 大 多 数 典 型 的 电子 








邮件 地 址 。 


第 3 步 : 在 旺 贴 板 文本 中 找到 所 有 匹配 


既然 已 经 指定 了 电话 号 码 和 电子 邮件 地 址 的 正则 表达 式 ， 就 可 以 让 
Python 的 re 模块 做 壮 兰 的 工作 ， 碍 找 剪 贴 板 文 本 中 所 有 的 匹配 。 
pyperclip.pasteO 函 数 将 取得 一 个 字符 串 ， 内 容 是 剪贴 板 上 的 文本 ， 
findall0 正 则 表达 式 方法 将 返回 一 个 元 组 的 列表 。 


证 你 的 程序 看 起 来 像 这 样 : 





#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipb 


import pyperclip, re 


phoneRegex = re.compile(r’ ' ’ ( 
--_snip_-- 


# Find matches in clipboard text. 


text = str(pyperclip.paste()) 


@ matches = [] 


@ for groups in phoneRegex.findall(text): 


phoneNum = '-'.join([groups[1], groups[3], groups[5]]) 


if groups[8] != 


phoneNum += 


x' + groups[8] 


matches. append(phoneNum) 


© for groups in emailRegex.findall(text): 


matches.append(groups[@] ) 


# TODO: Copy results to the clipboard. 





每 个 匹配 对 应 一 个 元 组 ， 每 个 元 组 包含 正则 表达 式 中 每 个 分 组 的 字 
符 串 。 回 忆 一 下 ， 分 组 0 匹配 整个 正则 表达 式 ， 所 以 在 元 组 下 标 0 处 的 分 
组 ， 就 是 你 感 兴趣 的 内 容 。 


在 @@ 处 可 以 看 到 ， 你 将 所 有 的 匹配 保存 在 名 为 matches 的 列表 变量 
中 。 它 从 一 个 空 列表 开始 ， 经 过 几 个 for 循 环 。 对 于 E-mail 地 址 ， 你 将 每 
次 匹配 的 分 组 0 添加 到 列表 中 合 。 对 于 [匹配 的 电话 号 码 ， 你 不 想 只 是 添 
加 分 组 0。 虽然 程序 可 以 “检测 ” 几 种 不 同形 式 的 电话 号 码 ， 你 希望 添加 
的 电话 号 码 是 唯一 的 、 标 准 的 格式 。phoneNum 变 量 包 含 一 个 字符 串 ， 
它 由 匹配 文本 的 分 组 1、3、5 和 8 构成 人 @@。 (这 些 分 组 是 区 号、 前 3 个 数 
字 、 后 4 个 数字 和 分 机 号 。) 


第 4 步 : 所 有 匹配 连接 成 一 个 字符 串 ， 复 制 到 甬 贴 板 
现在 ，E-mail 地 址 和 电话 号 人 码 已 经 作为 字符 串 列 表 放 在 matches 中 ， 
你 希望 将 它们 复制 到 剪贴 板 。pyperclip.copyO 函 数 只 接收 一 个 字符 串 
值 ， 而 不 是 字符 串 的 列表 ， 所 以 你 在 matches 上 调用 join() 方 法 。 


为 了 更 容易 看 到 程序 在 工作 ， 让 我 们 将 所 有 找到 的 匹配 都 输出 在 终 
端 上 。 如 果 没 有 找到 电话 号 码 或 E-mail 地 址 ， 程 序 应 该 告诉 用 户 。 


证 你 的 程序 看 起 来 像 这 样 : 








#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboa 


--_snip_-- 
for groups in emailRegex.findall(text): 


matches.append(groups[@]) 


# Copy results to the clipboard. 


if len(matches) > 6: 


pyperclip.copy('\n'.join(matches ) ) 


print('Copied to clipboard: ') 


print('\n'.join(matches) ) 


else: 


print('No phone numbers or email addresses found. ' ) 








第 5 步 : 运行 程序 


作为 一 个 例子 ， 打 开 你 的 Web 浏 览 器 ， 访 问 No Starch Press 的 联系 
页 面 http:/www.nostarch.com/contactus.htm。 按 下 Ctrl-A 选 择 该 页 的 所 有 


0 0 


Copied to clipboard: 
800-420-7240 
415-863-9900 
415-863-9950 
info@nostarch.com 
media@nostarch.com 


academic@nostarch.com 
help@nostarch.com 





第 6 步 : 类 似 程序 的 构想 


识别 文本 的 模式 〈 并 且 可 能 用 sub( 方 法 蔡 换 它们 ) 有 许多 不 同 潜在 
的 应 用 。 


寻找 网 站 的 URL， 它 们 以 http:// 或 https:// 开 始 。 

整理 不 同日 期 格式 的 日 期 (诸如 3/14/2015、03-14-2015 和 
2015/3/14) ， 用 唯一 的 标准 格式 蔡 代 。 

删除 敏感 的 信息 ， 诸 如 社会 保险 号 或 信用 卡号 。 

寻找 常见 打字 错误 ， 诸 如 单词 间 的 多 个 空格 、 不 小 心 重复 的 单词 ， 
或 者 句子 末尾 处 多 个 感叹 号 。 它 们 很 烦人 ! ! 








7.16 小 结 


虽然 计算 机 可 以 很 快 地 得 找 文本 ， 但 你 必须 精确 地 告诉 它 要 找 什 
么 。 正 则 表达 式 让 你 精确 地 指明 要 找 的 文本 模式 。 实 际 上 ， 菏 些 文 字 处 
和 





Python 自 带 的 re 模块 让 你 编译 Regex 对 象 。 该 对 象 有 几 种 方法 : 
匹配 ，findallO 碍 找 所 有 匹配 实例 ，sub0 对 文本 进行 碍 
KAI i 





除 本 章 介 绍 的 语法 以 外 ， 还 有 一 些 正则 表达 式 语 法 。 你 可 以 在 官方 
Python 文 档 中 找到 更 多 内 容 : http://docs.python.org/3/library/re.html 。 指 
南 网 站 http:/www.regular- expressions.info/ 也 是 很 有 用 的 资源 。 

既然 已 经 掌握 了 如 何 操纵 和 匹配 字符 串 ， 接 下 来 就 该 学 习 如 何在 计 
算 机 硬盘 上 读 写 文件 了 。 

7.17 习题 

1. 创建 Regex 对 象 的 函数 是 什么 ? 

2. 在 创建 Regex 对 象 时 ， 为 什么 常用 原始 字符 串 ? 

3. search() 方 法 返回 什么 ? 

4. 通过 Match 对 象 ， 如 何 得 到 匹配 该 模式 的 实际 字符 串 ? 


5. 用 mrCdvdd)-Cddd-\dddd7 创 建 的 正则 表达 式 中 ， 分 组 0 表示 什 
? 分 组 1 呢 ? 分 组 2 呢 ? 


6. 括号 和 人 句点 在 正则 表达 式 语法 中 有 特殊 的 含义 。 如 何 指定 正则 
表达 式 匹 配 真正 的 括号 和 句点 字符 ? 


7. findall0 方 法 返回 一 个 字符 串 的 列表 ， 或 字符 串 元 组 的 列表 。 是 
什么 决定 它 提 供 哪 种 返回 ? 


8. 在 正则 表达 式 中 ，| 字 符 表示 什么 意思 ? 

9. 在 正则 表达 式 中 ，? 字 符 有 哪 两 种 含义 

0. 在 正则 表达 式 中 ，+ 和 * 字 符 之 间 的 区 别 是 什么 ? 

1. 在 正则 表达 式 中 ，{3} 和 {3,5} 之 间 的 区 别 是 什么 ? 
12. 在 正则 表达 式 中 ，\d、\w 和 \s 缩 写字 符 类 是 什么 意思 ? 


13. 在 正则 表达 式 中 ，\D、\W 和 \S 缩 写字 符 类 是 什么 意思 ? 











m. 


=. 


14. 如 何 让 正则 表达 式 不 区 分 大 小 写 ? 


15. 字符 .通常 匹配 什么 ? 如 果 re.DOTALL 作 为 第 二 个 参数 传递 给 
re.compile(0)， 它 会 匹配 什么 ? 


16. .和 ?之 间 的 区 别 是 什么 ? 
17. 匹配 所 有 数字 和 小 写字 母 的 字符 分 类 语法 是 什么 ? 


18. 如 果 numRegex = re.compile(r\d+), ARA numRegex.sub('X', '12 
drummers, 11 pipers, five rings, 3 hens") 返 回 什么 ? 


19. 将 re.VERBOSE 作 为 第 二 个 参数 传递 给 re.compile0， 让 你 能 做 
什么 ? 


20. 如 何 写 一 个 正则 表达 式 ， 匹 配 每 3 位 就 有 一 个 去 号 的 数字 ? E 


e '42' 

e '1,234' 

e '6,368,745' 
但 不 会 匹配 ; 


e '12,34,567 〈 喜 号 之 间 只 有 两 位 数字 ) 
e。'1234' (缺少 逗号 ) 


21. 如 何 写 一 个 正则 表达 式 ， 匹 配 姓 Nakamoto 的 完整 姓名 ? 你 可 以 
假定 名 字 总 是 出 现在 姓 前 面 ， 是 一 个 大 写字 母 开 头 的 单词 。 该 正则 表达 











e 'Satoshi Nakamoto' 
e 'Alice Nakamoto' 
e 'RoboCop Nakamoto' 


但 不 匹配 : 


e 'satoshi Nakamoto'〈 名 字 没 有 大 写 首 字母 ) 
e 'Mr. Nakamoto'〈 前 面 的 单词 包含 非 字 母 字符 ) 











e 'Nakamoto' (AZZ) 
e 'Satoshi nakamoto' (CHERA EZEK ) 


22. a 4a T EWR EAN PF, ENA Tia] 
Alice、Bob 或 Carol， 第 二 个 词 是 eats、pets 或 throws， 第 三 个 词 是 
apples、cats 或 baseballs。 该 句子 以 句点 结束 。 这 个 正则 表达 式 应 该 不 区 
分 大 小 写 。 它 必须 匹配 : 








'Alice eats apples.' 

‘Bob pets cats.' 

‘Carol throws baseballs.’ 
'Alice throws Apples.’ 
"BOB EATS CATS. 


但 不 匹配 : 


e 'RoboCop eats apples.' 
e 'ALICE THROWS FOOTBALLS.’ 
e 'Carol eats 7 cats. 


7.18 实践 项 日 
作为 实践 ， 编 程 完成 下 列 任务 。 
7.18.1 强 口令 检测 


写 一 个 函数 ， 它 使 用 正则 表达 式 ， 确 保 传 入 的 口令 字符 串 是 强 口 
令 。 强 口令 的 定义 是 : 长 度 不 少 于 8 个 字符 ， 同 时 包含 大 写 和 小 写字 
符 ， 至 少 有 一 位 数字 。 你 可 能 需要 用 多 个 正则 表达 式 来 测试 该 字符 串 ， 
以 保证 它 的 强度 。 


7.18.2 strip0 的 正则 表达 式 版 本 


写 一 个 函数 ， 它 接受 一 个 字符 串 ， 做 的 事情 和 strip0 字 符 串 方法 一 
样 。 如 果 只 传 入 了 要 去 除 的 字符 串 ， 没 有 其 他 参数 ， 那 么 就 从 该 字符 中 
首尾 去 除 空 折 字符。 否则， 函数 第 二 个 参数 指定 的 字符 将 从 该 字符 串 中 
去 除 。 








[1] Cory Doctorow, “Here’s what ICT should really teach kids: how to do 
regular expressions,” Guardian_, December 4, 2012, 
_http://www.theguardian.com/technology/2012/dec/04/ict-teach-kids-regular- 
expressions/._ 


Bee we Mt 


当 程 序 运行 时 ， 变 量 是 保存 数据 的 好 方法 ， 但 如 采 和 希望 程序 结束 后 
数据 仍然 保持 ， 就 需要 将 数据 保存 到 文件 中 。 你 可 以 认为 文件 的 内 容 是 
一 个 字符 串 值 ， 大 小 可 能 有 几 个 GB。 在 本 章 中 ， 你 将 学 习 如 何 使 用 
Python 在 硬盘 上 创建 、 读 取 和 保存 文件 。 


8.1 文件 与 文件 路 径 


文件 有 两 个 关键 属性 : “文件 名 ”通常 写成 一 个 单词 ) 和 ‘路径 ”。 
路 径 指 明了 文件 在 计算 机 上 的 位 置 。 例 如 ， 我 的 Windows 7 笔记 本 上 有 
一 个 文件 名 为 projects.docx， 它 的 路 径 在 C:\Users\asweigart\Documents。 
文件 名 中 ， 最 后 一 个 句点 之 后 的 部 分 称 为 文件 的 “扩展 名 ”， 它 指出 了 文 
件 的 类 型 。project.docx 是 一 个 Word 文 档 ，Users、asweigart 和 和 Documents 
都 是 指 “ 文 件 夹 "(也 成 为 目录 )〉 。 文 件 来 可 以 包含 文件 和 其 他 文件 夹 。 
例如 ，project.docx 在 Documents 文 件 夹 中 ， 该 文件 夹 义 在 asweigart 文 件 
ger eee 图 8-1 展 示 了 这 个 文件 夹 的 

月 织 结 


路 径 中 的 Ci\ 部 分 是 “ 根 文件 夹 ?"， 它 包含 了 所 有 其 他 文件 夹 。 在 
Windows 中 ， 根 文件 夹 名 为 C\， 也 称 为 C: 盘 。 在 OS X 和 Linux 中 ， 根 
文件 夹 是 /。 在 本 书 中 ， 我 使 用 Windows 风 格 的 根 文件 夹 ，C:\。 如 果 你 
在 OS X 或 Linux 上 输入 交互 式 环境 的 例子 ， 请 用 /代替 。 



































CSN 
[| Users 


L asweigart 


| Documents 


L project. docx 


图 8-1 在 文件 夹层 次 结构 中 的 一 个 文件 


附加 卷 ， 诸 如 DVD 驶 动 器 或 USB 闪 存 驱 动 器 ， 在 不 同 的 操作 系统 上 
显示 也 不 同 。 在 Windows 上， 它们 表示 为 新 的 、 带 字符 的 根 驱动 器 。 诸 
如 Di:\ 或 E:\。 在 OS X 上 ， 它 们 表示 为 新 的 文件 夹 ， 在 /Volumes 文 件 夹 
下 。 在 Linux 上 ， 它 们 表示 为 新 的 文件 夹 ， 在 /mnt mount") 文件 夹 
下 。 同 时 也 要 注意 ， 虽 然 文 件 夹 名 称 和 文件 名 在 Windows 和 OS Xx 上 是 不 
区 分 大 小 写 的 ， 但 在 Linux 上 是 区 分 大 小 写 的 。 


8.1.1 Windows 上 的 倒 斜 杜 以 及 OS XF Linux E HY IE RHT 
在 Windows 上 ， 路 径 书写 使 用 倒 斜 杠 作 为 文件 夹 之 间 的 分 隔 符 。 但 


OS X 和 Linux 上 ， 使 用 正 斜 杠 作为 它们 的 路 径 分 隅 符 。 如 果 想 要 程序 
运行 在 所 有 操作 系统 上 ， 在 编写 Python 脚本 时 ， 就 必须 处 理 这 两 种 情 
况 。 




















好 在 ， 用 os.path.join() 函 数 来 做 这 件 事 很 简单 。 如 果 将 单个 文件 和 
路 径 上 的 文件 夹 名 称 的 字符 串 传 递 给 它 ，os.path.join0 就 会 返回 一 个 文 
On 包含 正确 的 路 径 分 隔 符 。 在 交互 式 环 境 中 输入 以 下 代 


>>> import os 


>>> os.path.join('usr', 'bin', 'spam') 


'usr\\bin\\spam' 





我 在 Windows 上 运行 这 些 交 互 式 环境 的 例子 ， 所 以 ，os.path 
join(usr’, 'bin', 'spam') 返 回 'usr\binmspam' (请 注意 ， 倒 斜 杠 有 两 个 ， 因 为 
每 个 倒 和 料 杠 需要 由 另 一 个 倒 斜 杠 字符 来 转 义 ) 。 如 果 我 在 OS X 或 Linux 
上 调用 这 个 函数 ， 该 字符 串 束 会 是 usrbin/spam'。 


如 果 需 要 创建 文件 名 称 的 字符 串 ，os.path.join0 函 数 就 很 有 用。 这 
些 字符 串 将 传递 给 几 个 文件 相关 的 函数 ， 本 章 将 进行 介绍 。 例 如 ， 下 面 
的 例子 将 一 个 文件 名 列表 中 的 名 称 ， 添 加 到 文件 夹 名 称 的 末尾 。 








>>> myFiles = ['accounts.txt', 'details.csv', 'invite.docx'] 


>>> for filename in myFiles: 


print(os.path.join('C:\\Users\\asweigart', filename) ) 
C:\Users\asweigart\accounts.txt 
C:\Users\asweigart\details.csv 
C:\Users\asweigart\invite.docx 


| 


8.1.2 当前 工作 目录 


每 个 运行 在 计算 机 上 的 程序 ， 都 有 一 个 “当前 工作 目录 ”， 或 cwd。 
所 有 没有 从 根 文 件 夹 开始 的 文件 名 或 路 径 ， 都 假定 在 当前 工作 目录 下 。 
利用 os.getcwd() 函 数 ， 可 以 取得 当前 工作 路 径 的 字符 串 ， 并 可 以 利用 
os.chdir() 改 变 它 。 在 交互 式 环境 中 输入 以 下 代码 : 














>>> import os 


>>> os.getcwd() 


"C:\\Python34' 
>>> os.chdir('C: \\Windows\\System32' ) 


>>> os.getcwd() 


"C:\\Windows\\System32' 





这 里 ， 当 前 工作 目录 设置 为 CN\Python34， 所 以 文件 名 project.docx 指 








癌 C:\Python34\project.docx。 如 果 我 们 将 当前 工作 目录 改 为 
C:\Windows， 文 件 束 被 解释 为 C:\Windows\project.docx。 


如 果 要 更 改 的 当前 工作 目录 不 存在 ，Python 束 会 显示 一 个 错误 。 





>>> os.chdir('C:\\ThisFolderDoesNotExist') 


Traceback (most recent call last): 
File "< pyshell#18>", line 1, in < module> 


os.chdir('C:\\ThisFolderDoesNotExist' ) 
FileNotFoundError: [WinError 2] The system cannot find the file specified: 
"C:\\ThisFolderDoesNotExist' 





Wa ee 


虽然 文件 夹 是 目录 的 更 新 的 名 称 ， 但 请 注意 ， 当 前 工作 目录 《或 当前 目录 ) 是 标准 术语 ， 没 
有 当前 工作 文件 夹 这 种 说 法 。 


8.1.3 绝对 路 径 与 相对 路 径 
有 两 种 方法 指定 一 个 文件 路 径 。 


e。“ 绝 对 路 径 ?”， 总 是 从 根 文 件 夹 开始 。 
o AMT ES 径 >， 它 相对 于 程序 的 当前 工作 目录 。 


还 有 点 CO 和 点 点 (..) 文件 来。 它们 不 是 真正 的 文件 来， 而 是 可 
以 在 路 径 中 使 用 的 特殊 名 称 。 单 个 的 句点 (“点 *”) 用 作文 件 夹 目 名 称 
时 ， 是 “这 个 目录 ”的 缩写 。 两 个 句点 (“点 点 ”) 意思 是 父 文件 夹 。 


图 8-2 是 一 些 文件 夹 和 文件 的 例子 。 如 果 当 前 工作 目录 设置 为 
Ci\bacon， 这 些 文件 夹 和 文件 的 相对 目录 ， 就 设置 为 图 8-2 所 示 的 样子 。 















































相对 路 径 绝对 路 径 


C:\ sA CA 
ae ijj bacon A C:\bacon 
目录 
fizz fizz CA\bacon\fizz 
L spam.txt \fizz\spam.txt C:\bacon\fizz\spam.txt 
spam.txt A\spam.txt C:\bacon\spam.txt 
eggs ..\eggs C:\eggs 
L spam.txt .. \eggs\spam.txt Cr\eggs\spam.txt 
spam.txt ..\spam.txt CAspam.txt 





图 8-2 在 工作 目录 C:bacon 中 的 文件 夹 和 文件 的 相对 路 径 


相对 路 径 开 始 处 的 \ 是 可 选 的 。 例 如 ，.\spam.tzt 和 spam.txt 指 的 是 同 
= 


8.1.4 用 os.makedirs0 创 建新 文件 夹 


程序 可 以 用 os.makedirsO 函 数 创 建新 文件 夹 〈 目 录 ) 。 在 交互 式 环 
境 中 输入 以 下 代码 : 





>>> import os 


>>> os.makedirs('C:\\delicious\\walnut\\waffles') 


pT 


这 不 仅 将 创建 C:\delicious 文 件 夹 ， 也 会 在 C:\delicious 下 创建 walnut 
文件 夹 ， 并 在 C:\delicious\walnut 中 创建 waffles 文 件 夹 。 也 就 是 许 ， 
os.makedirsO 将 创建 所 有 必要 的 中 间 文 件 夹 ， 目 的 是 确保 完整 路 径 名 存 
在 。 图 8-3 展示 了 这 个 文件 夹 的 层次 结构 。 








CA 


L delicious 
L walnut 
L waffles 


图 8-3 os.makedirs('C:\delicious\walnut\waffles") 的 结 
8.1.5 0s.path 模 块 


os.path 模 块 包含 了 许多 与 文件 名 和 文件 路 径 相 关 的 有 用 函数 。 例 
如 ， 你 已 经 使 用 了 os.path.join0) 来 构建 所 有 操作 系统 上 都 有 效 的 路 径 。 
因为 os.path 是 os 模块 中 的 模块 ， 所 以 只 要 执行 import ost A ASAE o 
如 果 你 的 程序 需要 处 理 文 件 、 文 件 夹 或 文件 路 径 ， 就 可 以 参考 本 节 中 这 
些 简短 的 例子 。os.path 模 块 的 完整 文档 在 Python 网 站 
E: http://docs.python.org/3/library/os.path.html 。 


y ae 


本 章 后 面 的 大 多 数 例 子 都 需要 os 模块 ， 所 以 要 记得 在 每 个 脚本 开始 处 导入 它 ， 或 在 重新 启动 
IDLE 时 导入 它 。 和 否则 ， 就 会 遇 到 错误 消息 NameError: name 'os' is not defined. 


8.1.6 处 理 绝 对 路 径 和 相对 路 径 









































os.path 模 块 提 供 了 一 些 函 数 ， 返 回 一 个 相对 路 径 的 绝对 路 径 ， 以 及 
检查 给 定 的 路 径 是 否 为 绝对 路 径 。 


e 调用 os.path.abspath(path) 将 返回 参数 的 绝对 路 径 的 字符 串 。 这 是 将 
相对 路 径 转 换 为 绝对 路 径 的 简便 方法 。 

调用 os.path.isabs(path)， 如 果 参 数 是 一 个 绝对 路 人 径 ， 就 返回 True， 

如 果 参 数 是 一 个 相对 路 径 ， 束 返回 False。 

调用 os.path.relpath(path, starb 将 返回 从 start 路 径 到 path 的 相对 路 径 的 
字符 串 。 如 果 没 有 提供 start， 束 使 用 当前 工作 目录 作为 开始 路 径 。 


在 交互 式 环 境 中 答 试 以 下 函数 : 





>>> oS.path.abspath('.') 


"C:\\Python34' 
>>> oS.path.abspath('.\\Scripts' ) 


"C:\\Python34\\Scripts' 
>>> oS.path.isabs(".') 


False 
>>> oS.path.isabs(os.path.abspath(".')) 


True 


[L CR 


因为 在 os.path.abspathO 调 用 时 ， 当 前 目录 是 CA\Python34， 上 所 
以 “点 ”文件 夹 指 的 是 绝对 路 径 'C:\Python34'。 


因为 在 你 的 系统 上 ， 文 件 和 文件 夹 可 能 与 我 的 不 同 ， 所 以 你 不 能 完全 遵照 本 章 中 的 每 一 个 例 
子 。 但 还 是 请 尝试 用 你 的 计算 机 上 存在 的 文件 夹 来 完成 例子 。 






























































在 交互 式 环境 中 ， 输 入 以 下 对 os.path.relpath() 的 调用 : 


>>> os.path.relpath('C:\\Windows', 'C:\\') 


"Windows ' 
>>> osS.path.relpath('C:\\Windows', 'C:\\spam\\eggs' ) 


",.\\..\\Windows' 
>>> os.getcwd() 


"C:\\Python34' 





调用 os.path. dirname(path) 将 返回 一 个 字符 串 ， 它 包含 path 参 数 中 最 
后 一 个 斜 杠 之 前 的 所 有 内 容 。 调 用 os.path.basename(path) 将 返回 一 个 字 
符 串 ， 它 包含 path 参数 中 最 后 一 个 斜 杠 之 后 的 所 有 内 容 。 一 个 路 径 的 目 
录 名 称 和 基本 名 称 如 图 8-4 所 示 。 


C:\Windows\System32\calc.exe 


ees |e! 


目录 名 称 基本 名 称 


图 8-4 基本 名 称 跟 在 路 径 中 最 后 一 个 斜 杜 后 ， 它 和 文件 名 一 样 ， 
目录 名 称 是 最 后 一 个 斜 杠 之 前 的 所 有 内 容 


例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 











>>> path = 'C:\\Windows\\System32\\calc.exe' 


>>> oS.path.basename(path) 


"calc.exe' 
>>> os.path.dirname(path) 


"C:\\Windows\\System32' 





如 果 同 时 需要 一 个 路 径 的 目录 名 称 和 基本 名 称 ， 就 可 以 调用 
os.path.split()， 获 得 这 两 个 字符 串 的 元 组 ， 像 这 样 : 





>>> calcFilePath = 'C:\\Windows\\System32\\calc.exe' 


>>> os.path.split(calcFilePath) 


('C:\\Windows\\System32', 'calc.exe') 





请 注意 ， 可 以 调用 os.path.dirname() 和 os.path.basename()， 将 它们 的 
返回 值 放 在 一 个 元 组 中 ， 从 而 得 到 同样 的 元 组 。 


>>> (os.path.dirname(calcFilePath), os.path.basename(calcFilePath) ) 


('C:\\Windows\\System32', 'calc.exe') 





但 如 果 需 要 两 个 值 ，os.path.splitO 是 很 好 的 快捷 方式 。 

同时 也 请 注意 ，os.path.splitO) 不 会 接受 一 个 文件 路 径 并 返回 每 个 文 
件 夹 的 字符 串 的 列表 。 如 果 需 要 这 样 ， 请 使 用 split0) 字 符 串 方法 ， 并 根 
据 os.path.sep 中 的 字符 串 进 行 分 割 。 回 忆 一 下 ， 根 据 程 序 运 行 的 计算 
机 ，os.path.sep 变 量 设置 为 正确 的 文件 夹 分 割 斜 杠 。 


例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> calcFilePath.split(os.path.sep) 





['C:', 'Windows', 'System32', 'calc.exe'] 





在 OS X 和 Linux 系 统 上 ， 返 回 的 列表 头 上 有 一 个 空 字符 串 : 


>>> '/usr/bin' .split(os.path.sep) 





split() 字 符 串 方法 将 返回 一 个 列表 ， 包 含 该 路 径 的 所 有 部 分 。 如 果 
同 它 传递 0s.path.sep， 就 能 在 所 有 操作 系统 上 工作 。 





8.1.7 查看 文件 大 小 和 文件 夹 内 容 
一 旦 有 办 法 处 理 文 件 路 径 ， 就 可 以 开始 搜集 特定 文件 和 文件 夹 的 信 
轧 。os.path 模 块 提 供 了 一 些 函 数 ， 用 于 碍 看 文件 的 字数 以 及 给 定 文件 
夹 中 的 文件 和 子 文件 夹 。 
e 调用 os.path.getsize(path) 将 返回 path 参 数 中 文件 的 字 节 数 。 
。 调用 os.listdir(path) 将 返回 文件 名 字符 串 的 列表 ， 包 售 path 参 数 中 的 
每 个 文件 〈 请 注意 ， 这 个 函数 在 os 模块 中 ， 而 不 是 os.path) 。 


下 面 是 我 在 交互 式 环 境 中 尝试 这 些 函数 的 结果 : 


>>> os.path.getsize('C:\\Windows\\System32\\calc.exe') 


776192 
>>> os.listdir('C:\\Windows\\System32' ) 


['@409', '12520437.cpx', '1252085@.cpx', '5U877.ax', ‘aaclient.dll', 
--_snip_-- 


"xwtpdui.dll', 'xwtpw32.dll', ‘zh-CN', ‘zh-HK', 'zh-TW', 'zipfldr.dll'] 





可 以 看 到 ， 我 的 计算 机 上 的 calc.exe 程 序 是 776192 字 节 。 在 我 的 
C:\Windows\ system32 下 有 许多 文件 。 如 果 想 知道 这 个 目录 下 所 有 文件 
的 总 字 节 数 ， 就 可 以 同时 使 用 os.path.getsize() 和 os.listdir()。 





>>> totalSize = 6 


>>> for filename in os.listdir('C:\\Windows\\System32'): 


totalSize = totalSize + os.path.getsize(os.path. join('C:\\Windows\\Sys 


>>> print(totalSize) 


1117846456 








“4 (8 4 iti JF) C:\Windows\System32 X FR H AREA FET, totalSize 
变量 依次 增加 每 个 文件 的 字 节 数 。 请 注意 ， 我 在 调用 os.path.getsize() 
时 ， 使 用 了 os.path.join0 来 连接 文件 夹 名 称 和 当前 的 文件 名 。 
os.path.getsize0 返 回 的 整数 添加 到 totalSize 中 。 在 循环 遍历 所 有 文件 后 ， 
我 打印 出 totalSize， 看 看 C:\Windows\System32 文 件 夹 的 总 字 节 数 。 


8.1.8 检查 路 笃 有 效 性 


OUR ste BERN BA ETE, VE Python K SU Ze ot FFARR o 
os.path 模 块 提供 了 一 些 函 数 ， 用 于 检测 给 定 的 路 径 是 否 存在 ， 以 及 筷 是 
文件 还 是 文件 夹 。 


。 如 果 path 参 数 所 指 的 文件 或 文件 来 存在 ， 调 用 os.path.exists(path) 将 
返回 True， 人 否则 返回 False。 

。 如 条 path 人 参数 存在 ， 并 且 是 一 个 文件 ， 调 用 os.path.isfile(pathb) 将 返 
回 True， 人 个 则 返回 False。 

。 如 有 果 path 参 数 存 在 ， 并 且 是 一 个 文件 来 ， 调 用 os.path.isdir(path) 将 返 
回 True， 耕 则 返回 False。 


下 面 是 我 在 交互 式 环 境 中 尝试 这 些 函数 的 结果 : 











>>> os.path.exists('C:\\Windows') 


True 
>>> oS.path.exists('C:\\some_made_up_ folder ) 


False 
>>> oS.path.isdir('C:\\Windows\\System32' ) 


True 
>>> os.path.isfile('C:\\Windows\\System32' ) 


False 
>>> osS.path.isdir('C:\\Windows\\System32\\calc.exe' ) 


False 
>>> os.path.isfile('C:\\Windows\\System32\\calc.exe' ) 


True 





利用 os.path.exists0 函 数 ， 可 以 确定 DVD 或 内 存盘 当前 是 否 连 在 计 
算 机 上 。 例 如 ， 如 果 在 Windows 计 算 机 上 ， 我 想 用 卷 名 Di:\ 检 查 一 个 内 存 


盘 ， 可 以 这 样 做 : 


>>> oS.path.exists('D:\\') 





不 好 ! ARRAS ti AA FEE To 





8.2 文件 读 写 过 程 


在 熟悉 了 处 理 文件 夹 和 相对 路 径 后 ， 你 就 可 以 指定 文件 的 位 置 ， 进 
行 读 写 。 接 下 来 几 节 介绍 的 函数 适用 于 纯 文 本 文件 。“ 纯 文本 文件 ”只 包 
含 基本 文本 字符 ， 不 包含 字体 、 大 小 和 颜色 信息 。 带 有 .txt 扩 展 名 的 文 
本 文件 ， 以 及 带 有 .py 扩展 名 的 Python 肢 本 文件 ， 都 是 纯 文本 文件 的 例 
子 。 它 们 可 以 被 Windows 的 Notepad 或 OS XX 的 TextEdit 应 用 打开 。 你 的 程 
序 可 以 轻易 地 读 取 纯 文本 文件 的 内 容 ， 将 它们 作为 普通 的 字符 串 值 。 


“二 进 制 文件 ”是 所 有 其 他 文件 类 型 ， 诸 如 字 处 理 文 档 、PDF、 图 
像 、 电 子 表格 和 可 执行 程序 。 如 果 用 Notepad 或 TextEdit 打 开 一 个 二 进 制 
文件 ， 它 看 起 来 束 像 乱码 ， 如 图 8-5 所 示 。 
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图 8-5 在 Notepad 中 打开 Windows 的 calc.exe 程 序 


既然 每 种 不 同类 型 的 二 进 制 文件 ， 都 必须 用 它 目 己 的 方式 来 处 理 ， 
本 书 就 不 会 探讨 直接 读 写 二 进 制 文件 。 好 在 ， 许 多 模块 让 二 进 制 文件 的 
处 理 变 得 更 容易 。 在 本 章 稍 后 ， 你 将 探索 其 中 一 个 模块 : shelve。 


在 Python 中 ， 读 写 文件 有 3 个 步 又 : 

1. 调用 open(0) 函 数 ， 返 回 一 个 File 对 象 。 

2. 调用 File 对 象 的 read0 或 write() 方 法 。 

3. 调用 File 对 象 的 close0) 方 法 ， 关 闭 该 文件 。 


8.2.1 Hopen() K 20 FT FF CE 


要 用 open0) 函 数 打开 一 个 文件 ， 就 要 癌 它 传递 一 个 字符 串 路 径 ， 表 
明 希 望 打 开 的 文件 。 这 既 可 以 是 绝对 路 径 ， 也 可 以 是 相对 路 径 。open0) 
函数 返回 一 个 File 对 象 。 


尝试 一 下 ， 先 用 Notepad 或 TextEdit 创 建 一 个 文本 文件 ， 名 为 
hello.txt。 输 入 Hello world! 作 为 该 文本 文件 的 内 容 ， 将 它 保 存在 你 的 用 
ee 然后 ， 如 果 使 用 Windows， 在 交互 式 环 境 中 输入 以 下 代 











>>> helloFile = open('C:\\Users\\_your_home_folder_\\hello.txt') 





如 果 使 用 OS X, EXHAR AA BARS: 


>>> helloFile = open('/Users/_your_home_folder_/hello.txt' ) 





请 确保 用 你 自己 的 计算 机 用 户 名 取代 your_home _ folder。 例 如 ， 我 


的 用 户 名 是 asweigart， 所 以 我 在 windows 下 和 输 
A'C:\Users\asweigart\hello.txt' . 


这 些 命 令 都 将 以 读 取 纯 文本 文件 的 模式 打开 文件 ， 或 简称 为 “ 读 模 
式 ”。 当 文件 以 读 模 式 打 开 时 ，Python 只 让 你 从 文件 中 读 取 数据 ， 你 不 
能 以 任何 方式 写 入 或 修改 它 。 在 Python 中 打开 文件 时 ， 读 模式 是 默认 的 
模式 。 但 如 果 你 不 希望 依赖 于 Python 的 默认 值 ， 也 可 以 明确 指明 该 模 
I Hopen Ík AFI Fr, ENE AEX. HTA 
open('/Users/asweigart/hello.txt', 'r')#lopen(‘/Users/asweigart/hello.txt'){H J 
事情 一 样 。 


调用 open(0) 将 返回 一 个 File 对 象 。File 对 象 代表 计算 机 中 的 一 个 文 
件 ， 它 只 是 Python 中 另 一 种 类 型 的 值 ， 就 像 你 已 熟悉 的 列表 和 字典 。 在 
前 面 的 例子 中 ， 你 将 File 对 象 保存 在 helloFile 变 量 中 。 现 在 ， 当 你 需要 读 
取 或 写 入 该 文件 ， 就 可 以 调用 helloFile 变 量 中 的 File 对 象 的 方法 。 








8.2.2 读 取 文件 内 容 


既然 有 了 一 个 File 对 象 ， 就 可 以 开始 从 它 读 取 内 容 。 如 果 你 希望 将 
整个 文件 的 内 容 读 取 为 一 个 字符 串 值 ， 就 使 用 File 对 象 的 read(0 方 法 。 让 
我 们 继续 使 用 保存 在 helloFile 中 的 hello.txt File 对 象 。 在 交互 式 环境 中 输 
入 以 下 代码 : 


>>> helloContent = helloFile.read() 


>>> helloContent 


"Hello world!' 
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在 该 文件 中 的 这 个 字符 串 。 


或 者 ， 可 以 使 用 readlines() 方 法 ， 从 该 文件 取得 一 个 字符 串 的 列 
表 。 列 表 中 的 每 个 字符 串 就 是 文本 中 的 每 一 行 。 例 如 ， 在 hello.txt 文 件 
I 的 目录 下 ， 创 建 一 个 名 为 sonnet29.txt 的 文件 ， 并 在 其 中 写 入 以 下 文 











When, in disgrace with fortune and men's eyes, 
I all alone beweep my outcast state, 

And trouble deaf heaven with my bootless cries, 
And look upon myself and curse my fate, 





确保 用 换行 分 开 这 4 行 。 然 后 在 交互 式 环境 中 输入 以 下 代码 : 


>>> SonnetFile = open('sonnet29.txt') 


>>> sonnetFile.readlines() 


[When, in disgrace with fortune and men's eyes,\n', ' I all alone beweep my 
outcast state,\n', And trouble deaf heaven with my bootless cries,\n', And 
look upon myself and curse my fate," | 





请 注意 ， 每 个 字符 串 值 都 以 一 个 换行 字符 \n 结 束 。 除 了 文件 的 最 后 
一 行 。 与 单个 大 字符 串 相 比 ， 字 符 串 的 列表 通常 更 容易 处 理 。 


8.2.3 写 入 文件 


Python 允 许 你 将 内 容 写 入 文件 ， 方 式 与 print0 函 数 将 字符 串 “ 写 ”到 
屏幕 上 类 似 。 但 是 ， 如 果 打 开 文 件 时 用 读 模式 ， 就 不 能 写 入 文件 。 你 需 
要 以 “ 写 入 纯 文 本 模式 ?或 “添加 纯 文 本 模式 ?打开 该 文件 ， 或 简称 为 “与 
模式 ?和 “添加 模式 ”。 


写 模 式 将 履 写 原 有 的 文件 ， 从 头 开 始 ， 束 像 你 用 一 个 新 值 履 写 一 个 
变量 的 值 。 将 'w' 作 为 第 二 个 参数 传递 给 open0， 以 写 模 式 打 开 该 文件 。 
不 同 的 是 ， 添 加 模式 将 在 已 有 文件 的 来 尾 添加 文本 。 你 可 以 认为 这 类 似 
站 一 个 变量 中 的 列表 诺 加 内 容 ， 而 不 是 完全 履 与 该 变量 。 将 a 作 为 第 二 
个 参数 传递 给 open0， 以 添加 模式 打开 该 文件 。 


如 琳 传递 给 open() 的 文件 名 不 存在 ， 写 模式 和 添加 模式 都 会 创建 一 
个 新 的 空 文件 。 在 读 取 或 写 入 文件 后 ， 调 用 close() 方 法 ， 然 后 才能 再 次 














打开 该 文件 。 
让 我 们 整合 这 些 概念 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> baconFile = open('bacon.txt', 'w') 


>>> baconFile.write('Hello world!\n') 


13 
>>> baconFile.close() 


>>> baconFile = open('bacon.txt', 'a') 


>>> baconFile.write('Bacon is not a vegetable. ') 


25 
>>> baconFile.close() 


>>> baconFile = open('bacon.txt' ) 


>>> content = baconFile.read() 


>>> baconFile.close() 


>>> print(content) 


Hello world! 
Bacon is not a vegetable. 





首先 ， 我 们 以 写 模式 打开 bacon.txt。 因 为 还 没有 bacon.txt，Python 
就 创建 了 一 个 。 在 打开 的 文件 上 调用 write()， 并 同 write(0) 传 入 字符 串 参 
数 'Hello world! \n'"， 将 字符 串 写 入 文件 ， 并 返回 写 入 的 字符 个 数 ， 包 括 
换行 符 。 然 后 关闭 该 文件 。 





为 了 将 文本 添加 到 文件 已 有 的 内 容 ， 而 不 是 取代 我 们 刚刚 写 入 的 字 
符 串 ， 我 们 就 以 添加 模式 打开 该 文件 。 同 该 文件 写 入 'Bacon is not a 
vegetable.， 并 关闭 它 。 最 后 ， 为 了 将 文件 的 内 容 打印 到 屏幕 上 ， 我 们 
以 默认 的 读 模 式 打 开 该 文件 ， 调 用 read0， 将 得 到 的 内 容 保存 在 content 
中 ， 关闭 该 文件 ， 并 打印 content。 


请 注意 ，write0 方 法 不 会 像 print0 函 数 那样 ， 在 字符 串 的 末尾 自动 
添加 换行 字符 。 必 须 自己 添加 该 字符 。 


8.3 用 shelve 模 块 保存 变量 


利用 shelve 模 块 ， 你 可 以 将 Python 程 序 中 的 变量 保存 到 二 进 制 的 
shelf 文 件 中 。 这 样 ， 程 序 就 可 以 从 硬盘 中 恢复 变量 的 数据 。shelve 模 块 
让 你 在 程序 中 添加 “保存 "和 “打开 ”功能 。 例 如 ， 如 果 运 行 一 个 程序 ， 并 
输入 了 一 些 配置 设置 ， 就 可 以 将 这 些 设置 保存 到 一 个 shelf 文 件 ， 然 后 让 
程序 下 一 次 运行 时 加 载 它们 。 


在 交互 式 环境 中 输入 以 下 代码 : 

















>>> import shelve 


>>> shelfFile = shelve.open('mydata') 


>>> cats = ['Zophie', 'Pooka', 'Simon'] 


>>> shelfFile['cats'] = cats 


>>> shelfFile.close() 


[L CR 


要 利用 shelve 模 块 读 写 数据 ， 首 先 要 导入 它 。 调 用 函数 shelve.open() 
并 传 入 一 个 文件 名 ， 然 后 将 返回 的 值 保 存在 一 个 变量 中 。 可 以 对 这 个 变 
量 的 shelf 值 进行 修改 ， 就 像 它 是 一 个 字典 一 样 。 当 你 完成 时 ， 在 这 个 值 
上 调用 dlose()。 这 里 ， 我 们 的 shelf 值 保存 在 shelfFile 中 。 我 们 创建 了 一 个 
列表 cats， 并 写 下 shelfFile['cats'] =cats， 将 该 列表 保存 在 shelfFile 中 ， 作 











为 键 'cats' 关 联 的 值 〈 融 像 在 字典 中 一 样 ) 。 然 后 我 们 在 shelfFile 上 调用 
close()。 





在 Windows 上 运行 前 面 的 代码 ， 你 会 看 到 在 当前 工作 目录 下 有 3 个 
新 文件 mydata.bak、mydata.dat 和 mydata.dir。 在 OS X 上 ， 只 会 创建 一 
个 mydata.db 文 件 。 


这 些 二 进 制 文件 包含 了 存储 在 shelf 中 的 数据 。 这 些 二 进 制 文件 的 格 
式 并 不 重要 ， 你 只 需要 知道 shelve 模 块 做 了 什么 ， 而 不 必 知 道 它 是 怎么 
做 的 。 该 模块 让 你 不 用 操心 如 何 将 程序 的 数据 保存 到 文件 中 。 


你 的 程序 稍 后 可 以 使 用 shelve 模 块 ， 重 新 打开 这 些 文件 并 取出 数 
据 。shelf 值 不 必用 读 模式 或 写 模 式 打开 ， 因 为 它们 在 打开 后 ， 既 能 读 又 
能 写 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> shelfFile = shelve.open('mydata') 


>>> type(shelfFile) 


< class 'shelve.DbfilenameShelf'> 
>>> shelfFile['cats' ] 


['Zophie', 'Pooka', ‘Simon’ ] 


>>> shelfFile.close() 








这 里 ， 我 们 打开 了 shelf 文 件 ， 检 查 我 们 的 数据 是 否 正确 存储 。 输 入 
shelfFile['cats'] 将 返回 我 们 前 面 保 存 的 同一 个 列表 ， 所 以 我 们 就 知道 该 列 





表 得 到 了 正确 存储 ， 然 后 我 们 调用 close()。 


就 像 字典 一 样 ，shelf 值 有 keys() 和 values0 〇 方法， 返回 shelf 中 键 和 值 
的 类 似 列表 的 值 。 因 为 这 些 方 法 返回 类 似 列表 的 值 ， 而 不 是 真正 的 列 
表 ， 所 以 应 该 将 它们 传递 给 listO0 函 数 ， 取 得 列表 的 形式 。 在 交互 式 环 境 
中 输入 以 下 代码 : 








>>> shelfFile = shelve.open('mydata') 


>>> list(shelfFile.keys()) 


['cats'] 
>>> list(shelfFile.values()) 


[['Zophie', 'Pooka', ‘Simon’ ] ] 
>>> shelfFile.close() 


创建 文件 时 ， 如 果 你 需要 在 Notepad 或 TextEdit 这 样 的 文本 编辑 器 中 
读 取 和 它们 ， 纯 文本 就 非常 有 有 用。 但是， 如 果 想 要 保存 Python 程序 中 的 数 
据 ， 那 就 使 用 shelve 模 块 。 


8.4 H pprint.pformat() K ŽUR TA Œ 
回忆 一 下 5.2 节 “漂亮 打印 ?中 ，pprint.pprintO 函 数 将 列表 或 字典 中 的 


内 容 * 漂 亮 打印 ?到 屏幕 ， 而 pprint.pformatO 函 数 将 返回 同样 的 文本 字符 
串 ， 但 不 是 打印 它 。 这 个 字符 串 不 仅 是 易于 阅读 的 格式 ， 同 时 也 是 语法 
上 正确 的 Python 代码 。 假 定 你 有 一 个 字典 ， 保 存在 一 个 变量 中 ， 你 希望 
保存 这 个 变量 和 它 的 内 容 ， 以 便 将 来 使 用 。pprint.pformat0) 函 数 将 提供 
一 个 字符 串 ， 你 可 以 将 它 写 入 .py 文件 。 该 文件 将 成 为 你 自己 的 模块 ， 

如 琳 你 需要 使 用 存储 在 其 中 的 变量 ， 残 可 以 导入 它 。 


例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 




















>>> import pprint 


>>> cats = [{'name': 'Zophie', 'desc': 'chubby'}, {'name': 'Pooka', 'desc': 


>>> pprint.pformat(cats) 


"[{'desc': 'chubby', 'name': 'Zophie'}, {'desc': ‘fluffy’, 'name': 'Pooka'} 
>>> fileObj = open('myCats.py', 'w') 


>>> fileObj.write('cats = ' + pprint.pformat(cats) + '\n') 


83 
>>> fileObj.close() 





这 里 ， 我 们 导入 了 pprint， 以 便 能 使 用 pprint.pformat()。 我 们 有 一 个 








字典 的 列表 ， 保 存在 变量 cats 中 。 为 了 让 cats 中 的 列表 在 关闭 交互 式 环境 
后 仍然 可 用 ， 我 们 利用 pprint.pformat()， 将 它 返 回 为 一 个 字符 串 。 当 我 
们 有 了 cats 中 数据 的 字符 串 形式 ， 束 很 容易 将 该 字符 串 写 入 一 个 文件 ， 
我 们 将 它 命名 为 myCats.py。 


import 语 句 导 入 的 模块 本 里 束 是 Python 脚 本。 如 果 来 日 
pprint.pformat() 的 字符 串 保存 为 一 个 .py 文件 ， 该 文件 就 是 一 个 可 以 导入 
的 模块 ， 像 其 他 模块 一 样 。 


由 于 Python 脚本 本 吴 也 是 带 有 .py 文件 扩展 名 的 文本 文件 ， 所 以 你 的 


Python 程序 甚至 可 以 生成 其 他 Python 程序 。 然 后 可 以 将 这 些 文件 导入 到 
脚本 中 。 


>>> import myCats 











>>> myCats.cats 


[{'name': 'Zophie', ‘desc’: 'chubby'}, {'name': 'Pooka', ‘desc': 'fluffy'}] 
>>> myCats.cats[6] 


{'name': "Zophie', 'desc': 'chubby'} 
>>> myCats.cats[@][ ‘name’ ] 


"Zophie' 





创建 一 个 .py 文件 〈 而 不 是 利用 shelve 模 块 保存 变量 ) 的 好 处 在 于 ， 
因为 它 是 一 个 文本 文件 ， 所 以 任何 人 都 可 以 用 一 个 简单 的 文本 编辑 器 该 





取 和 修改 该 文件 的 内 容 。 但 是 ， 对 于 大 多 数 应 用 ， 利 用 shelve 模 块 来 保 
存 数 据 ， 是 将 变量 保存 到 文件 的 最 佳 方式 。 只 有 基本 数据 类 型 ， 诸 如 整 
型 、 浮 扣 型 、 字 符 串 、 列 表 和 字典 ， 可 以 作为 简单 文本 写 入 一 个 文件 。 
例如 ，File 对 象 就 不 能 够 编码 为 文本 。 


8.5 项 目 : 生成 随机 的 测验 试卷 文件 


假如 你 是 一 位 地 理 老 师 ， 班 上 有 35 名 学 生 ， 你 希望 进行 美国 各 州 首 
府 的 一 个 小 测验 。 不 妙 的 是 ， 班 里 有 几 个 坏 重 ， 你 无 法 确信 学 生 不 会 作 
浆 。 你 希望 随机 调整 问题 的 次 序 ， 这 样 每 份 试卷 都 是 独一无二 的 ， 这 让 
任何 人 痢 不 能 从 其 他 人 那里 抄 玖 答案 。 当 然 ， 手 工 完成 这 件 事 又 费时 叉 








无 聊 。 好 在 ， 你 懂 一 些 Python。 
下 面 是 程序 所 做 的 事 : 


创建 35 份 不 同 的 测验 试卷 。 

为 每 份 试卷 创建 50 个 多 重 选择 题 ， 次 序 随 机 。 

为 每 个 问题 提供 一 个 正确 答案 和 3 个 随机 的 错误 答案 ， 次 序 随机 。 
将 测验 试卷 写 到 35 个 文本 文件 中 。 

将 答案 写 到 35 个 文本 文件 中 。 


这 意味 着 代码 需要 做 下 面 的 事 : 

将 州 和 它们 的 首府 保存 在 一 个 字典 中 。 

。 针对 测验 文本 文件 和 答案 文本 文件 ， 调 用 open()、write() 和 cdlose()。 
利用 random.shuffle() 随 机 调整 问题 和 多 重 选 项 的 次 序 。 

第 1 步 : 将 测验 数据 保存 在 一 个 字典 中 


第 一 步 是 创建 一 个 脚本 框架 ， 并 填 入 测验 数据 。 创 建 一 个 名 为 
randomQuiz Generator.py 的 文件 ， 让 它 看 起 来 像 这 样 : 











#! python3 
# randomQuizGenerator.py - Creates quizzes with questions and answers in 
# random order, along with the answer key. 


@ import random 


# The quiz data. Keys are states and values are their capitals. 

@ capitals = {'Alabama': 'Montgomery', ‘Alaska’: 'Juneau', ‘Arizona’: '‘Phoe 
"Arkansas': ‘Little Rock', ‘California’: 'Sacramento', 'Colorado': 'Denve 
"Connecticut': 'Hartford', 'Delaware': 'Dover', 'Florida': ‘Tallahassee’, 
"Georgia': ‘Atlanta’, ‘Hawaii’: ‘Honolulu', ‘Idaho': 'Boise', ‘Illinois’: 
"Springfield', ‘Indiana’: 'Indianapolis', ‘Iowa': "Des Moines', ‘Kansas’: 
‘Topeka’, ‘Kentucky’: 'Frankfort', ‘Louisiana’: 'Baton Rouge', ‘Maine’: 
"Augusta', 'Maryland': ‘Annapolis’, ‘Massachusetts’: 'Boston', ‘Michigan’ 
"Lansing', ‘Minnesota’: ‘Saint Paul’, "Mississippi': ‘Jackson’, ‘Missouri 
"Jefferson City’, ‘Montana’: 'Helena', 'Nebraska': 'Lincoln', 'Nevada': 
"Carson City', ‘New Hampshire’: 'Concord', 'New Jersey': ‘Trenton’, ‘New 
Mexico’: ‘Santa Fe', ‘New York': ‘Albany', ‘North Carolina’: ‘Raleigh’, 
"North Dakota': 'Bismarck', 'Ohio': 'Columbus', ‘Oklahoma’: ‘Oklahoma Cit 
"Oregon': 'Salem', ‘Pennsylvania’: ‘Harrisburg’, ‘Rhode Island': ‘Provide 
"South Carolina’: 'Columbia', ‘South Dakota': 'Pierre', ‘Tennessee’: 


"Nashville', 'Texas': ‘Austin’, ‘Utah': 'Salt Lake City’, '‘Vermont': 
‘Montpelier’, ‘Virginia’: 'Richmond', ‘Washington’: ‘Olympia’, ‘West 
Virginia’: ‘Charleston’, 'Wisconsin': 'Madison', '‘Wyoming': 'Cheyenne' } 
# Generate 35 quiz files. 
© for quizNum in range(35): 

# TODO: Create the quiz and answer key files. 

# TODO: Write out the header for the quiz. 

# TODO: Shuffle the order of the states. 


# TODO: Loop through all 56 states, making a question for each. 





因为 这 个 程序 将 随机 安排 问题 和 答案 的 次 序 ， 所 以 需要 导入 random 
模块 @， 以 便利 用 其 中 的 函数 。capitals 变 量 @ 伟 一 个 字典 ， 以 美国 州 名 
作为 键 ， 以 州 首府 作为 值 。 因 为 你 希望 创建 35 份 测验 试卷 ， 所 以 实际 生 
成 测验 试卷 和 答案 文件 的 代码 (暂时 用 TODO 注 释 标 注 ) 会 放 在 一 个 for 
ae 循环 35 次 全 (这 个 数字 可 以 改变 ， 生 成 任何 数目 的 测验 试卷 文 
Jg 


第 2 步 : 创建 测验 文件 ， 并 打 乱 问题 的 次 序 
现在 是 时 候 填 入 那些 TODO 了 。 


循环 中 的 代码 将 重复 执行 35 次 《每 次 生成 一 份 汕 验 试卷 ) ， 所 以 在 
循环 中 ， 你 只 需要 考虑 一 份 测验 试卷 。 首 先 你 要 创建 一 个 实际 的 测验 试 
卷 文件 ， 它 需要 有 唯一 的 文件 名 ,并 且 有 茶 种 标准 的 标题 部 分 ， 留 出 位 
置 ， 让 学 生 填 写 姓 名 、 日 期 和 班级 。 然 后 需要 得 到 随机 排列 的 州 的 列 
表 ， 稍 后 将 用 它 来 创建 测验 试卷 的 问题 和 答案 。 


在 randomQuizGenerator.py 中 添加 以 下 代码 行 : 














#! python3 
# randomQuizGenerator.py - Creates quizzes with questions and answers in 
# random order, along with the answer key. 


--_snip_-- 


# Generate 35 quiz files. 
for quizNum in range(35): 
# Create the quiz and answer key files. 


© quizFile = open('capitalsquiz%s.txt' % (quizNum + 1), 'w') 
@ answerKeyFile = open('capitalsquiz answers%s.txt' % (quizNum + 1), ' 


# Write out the header for the quiz. 


© quizFile.write('Name:\n\nDate:\n\nPeriod:\n\n') 


quizFile.write((' ' * 20) + 'State Capitals Quiz (Form %s)' % (quizNu 


quizFile.write('\n\n') 


# Shuffle the order of the states. 


states = list(capitals.keys()) 


e random. shuffle(states) 


# TODO: Loop through all 5@ states, making a question for each. 





测验 试卷 的 文件 名 将 是 capitalsquiz<N>.txt， 其 中 <N> 是 该 测验 试卷 
的 唯一 编号 ， 来 自 于 quizNum， 即 for 循 环 的 计数 器 。 针 对 


capitalsquiz<N>.txt 的 答案 将 保存 在 一 个 文本 文件 中 ， 名 为 
capitalsquiz_answers<N>.txt。 每 次 执行 循 

环 ，"capitalsquiz%s.txt 和 'capitalsquiz_answers%s.txt 中 的 占 位 符 %s 都 将 
被 (quizNum + 1 取代 ， 所 以 第 一 个 测验 试卷 和 答案 将 是 capitalsquiz1l.txt 
Allcapitalsquiz_answers1.txt. 7EQAIOMopen() ek Be yal FH KF Gl) EK HS 
件 ， 以 w' 作 为 第 二 个 参数 ， 以 写 模式 打开 它们 。 


合 处 write0 语 句 创建 了 测验 标题 ， 让 学 生 填 写 。 最 后 ， 利 用 
random.shuffle() 函 数 @， 创 建 了 美国 州 名 的 随机 列表 。 该 函数 重新 随机 
排列 传递 给 它 的 列表 中 的 值 。 


第 3 步 : 创建 答案 选项 


现在 需要 为 每 个 问题 生成 答案 选项 ， 这 将 是 A 到 DD 的 多 重 选 择 。 你 
需要 创建 另 一 个 for 循 环 ， 该 循环 生成 测验 试卷 的 50 个 问题 的 内 容 。 然 后 
0 为 每 个 问题 生成 多 重 选 项 。 让 你 的 代码 看 起 
y 这 样 : 











#! python3 
# randomQuizGenerator.py - Creates quizzes with questions and answers in 
# random order, along with the answer key. 


--_snip_-- 


# Loop through all 56 states, making a question for each. 


for questionNum in range(5@): 


# Get right and wrong answers. 


correctAnswer = capitals[states[questionNum] ] 


wrongAnswers = list(capitals.values()) 


del wrongAnswers[wrongAnswers. index(correctAnswer) ] 


wrongAnswers = random.sample(wrongAnswers, 3) 


answerOptions = wrongAnswers + [correctAnswer ] 


random. shuffle(answerOptions ) 


# TODO: Write the question and answer options to the quiz file. 


# TODO: Write the answer key to a file. 





正确 的 答案 很 容易 得 到 ， 它 作为 一 个 值 保 存在 capitals 字 典 中 @。 这 





个 循环 将 过 历 打 乱 过 的 states 列 表 中 的 州 ， 从 states[0] 到 states[49]， 在 
capitals 中 找到 每 个 州 ， 将 该 州 对 应 的 首府 保存 在 correctAnswer 中 。 


可 能 的 错误 答案 列表 需要 一 点 技巧 。 你 可 以 从 capitals 字 典 中 复制 所 
有 的 值 @， 删 除 正确 的 答案 全， 人 然后 从 该 列表 中 选择 3 个 随机 的 值 @。 
random.sample() 函 数 使 得 这 种 选择 很 容易 ， 它 的 第 一 个 参数 是 你 希望 选 
择 的 列表 ， 第 二 个 参数 是 你 希望 选择 的 值 的 个 数 。 完 整 的 答案 选项 列表 
是 这 3 个 错误 答案 与 正确 答案 的 组 合 @@， 最后， 答案 需要 随机 排列 @@， 
这 样 正确 的 答案 就 不 会 总 是 选项 D。 


第 4 步 : 将 内 容 写 入 测验 试卷 和 答案 文件 


剩 下 来 融 是 将 问题 写 入 训 验 试 郑 文件， 将 答案 写 入 答案 文件 。 让 你 
的 代码 看 起 来 像 这 样 : 











#! python3 
# randomQuizGenerator.py - Creates quizzes with questions and answers in 


# random order, along with the answer key. 


--_snip_-- 


# Loop through all 56 states, making a question for each. 
for questionNum in range(5@): 
--_snip_-- 


# Write the question and the answer options to the quiz file. 


quizFile.write('%s. What is the capital of %s?\n' % (questionNum + 1, 


states[questionNum] ) ) 


for i in range(4): 


quizFile.write(' %s. %s\n' % ('ABCD'[i], answerOptions[i])) 


quizFile.write('\n') 


# Write the answer key to a file. 


© answerKeyFile.write('%s. %s\n' % (questionNum + 1, 'ABCD'[ 


answerOptions .index(correctAnswer)])) 


quizFile.close() 


answerKeyFile.close() 





Am RAOR, KARAN E A answerOptions¥l] # 
@。@ 处 的 表达 式 'ABCDI'[i] 将 字符 串 'ABCD' 看 成 是 一 个 数组 ， 它 在 循 
环 的 每 次 迭代 中 ， 将 分 别 求 值 为 'A'、'B、'C2 和"D'。 


在 最 后 一 行 @， 表 达 式 answerOptions.index(correctAnswer) 将 在 随机 
排序 的 答案 选项 中 ， 找 到 正确 答案 的 整数 下 标 ， 并 
且 'ABCD'[answerOptions.index(correctAnswem] 将 求 值 为 正确 答案 的 字 
母 ， 写 入 到 答案 文件 中 。 





在 运行 该 程序 后 ， 下 面 就 是 capitalsquizl.txt 文 件 看 起 来 的 样子 。 但 
是 ， 你 的 问题 和 答案 选项 当然 与 这 里 显示 的 可 能 会 不 同 。 这 取决 于 
random.shuffle() ial FA AY 24 





State Capitals Quiz (Form 1) 


1. What is the capital of West Virginia? 


. Hartford 
. Santa Fe 
. Harrisburg 
. Charleston 


2. What is the capital of Colorado? 
A. Raleigh 
B. Harrisburg 
C. Denver 
D. Lincoln 





对 应 的 capitalsquiz_answersl.txt 文 本 文件 看 起 来 像 这 样 : 





8.6 项 目 : 2 E59 KI 


假定 你 有 一 个 无 聊 的 任务 ， 要 填充 一 个 网 页 或 软件 中 的 许多 表格 ， 
其 中 包含 一 些 文本 字段 。 剪 贴 板 让 你 不 必 一 次 又 一 次 输入 同样 的 文本 ， 
但 剪贴 板 上 一 次 只 有 一 个 内 容 。 如 果 你 有 几 段 不 同 的 文本 需要 拷贝 粘 
贴 ， 束 不 得 不 一 次 又 一 次 的 标记 和 找 贝 几 个 同样 的 内 容 。 


可 以 编写 一 个 Python 程 序 ， 奶 踪 几 上 段 文本 。 这 个 “多 重 檀 贴 板 ” 将 被 

命名 为 mcb.pyw【〔 因 为 “mcb” 比 输入 “multiclipboard” 更 简单 )。.pyw 扩 展 

意味 着 Python 运行 该 程序 时 ， 不 会 显示 终端 窗口 〈 详 细 内 容 请 参考 附 
录 B) 。 


该 程序 将 利用 一 个 关键 字 保存 每 段 盘 贴 板 文本 。 例 如 ， 当 运行 py 
mcb.pyw save spam， 台 贴 板 中 当前 的 内 容 束 用 关键 字 spam 保 存 。 通 过 运 
行 py mcb.pyw spam， 这 上 段 文本 稍 后 将 重新 加 载 到 剪贴 板 中 。 如 采用 户 
忘记 了 都 有 哪些 关键 字 ， 他 们 可 以 运行 py mcb.pyw list， 将 所 有 关键 字 
的 列表 复制 到 剪贴 板 中 。 


下 面 是 程序 要 做 的 事 : 

针对 要 检查 的 关键 字 ， 提 供 命 令 行 参数 。 

如 琳 参 数 是 save， 那 么 将 盟 贴 板 的 内 容 保 存 到 关键 字 。 
MRSA Elis, WRA REF N AES I 
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这 意味 着 代码 需要 做 下 列 事情 : 


从 sys.argv 读 取 命 令 行 参数 。 
ES BY MAW o 





























。 保存 并 加 载 shelf 文 件 。 


如 果 你 使 用 Windows， 可 以 创建 一 个 名 为 mcb.bat 的 批 处 理 文件 ， 很 
容易 地 通过 “Run...” 窗 口 运行 这 个 脚本 。 该 批 处 理 文件 包含 如 下 内 容 : 


@pyw.exe C:\Python34\mcb.pyw %* 





第 1 步 : 注释 和 shelf 设 置 
我 们 从 一 个 脚本 框架 开始 ， 其 中 包含 一 些 注释 和 基本 设置 。 让 你 的 
代码 看 起 来 像 这 样 : 


#! python3 
# mcb.pyw - Saves and loads pieces of text to the clipboard. 
@ # Usage: py.exe mcb.pyw save <keyword> - Saves clipboard to keyword. 
# py.exe mcb.pyw <keyword> - Loads keyword to clipboard. 
# py.exe mcb.pyw list - Loads all keywords to clipboard. 


@ import shelve, pyperclip, sys 
© mcbShelf = shelve.open('mcb' ) 


# TODO: Save clipboard content. 


# TODO: List keywords and load content. 


mcbShelf.close() 





将 一 般 用 法 信息 放 在 文件 项 部 的 注释 中 ， 这 是 常见 的 做 法 @。 如 果 
迄 了 如 何 运行 这 个 脚本 ， 融 可 以 看 看 这 些 注 释 ， 帮 助 回 忆 起 来 。 然 后 导 
入 模块 @@。 找 贝 和 粘贴 需要 pyperclip 模 块 ， 读 取 命 令 行 参数 需要 sys 模 
块 。shelve 模 块 也 需要 准备 好 。 当 用 户 希 望 保存 一 段 筋 巾 板 文本 时 ， 你 
需要 将 它 保 存 到 一 个 shelf 文 件 中 。 然 后 ， 当 用 户 希 望 将 文本 拷贝 回 驴 贴 
板 时 ， 你 需要 打开 shelf 文 件 ， 将 它 重 新 加 载 到 程序 中 。 这 个 shlef 文 件 命 





名 时 带 有 前 级 mcb 候 . 
第 2 步 ， 用 一 个 关键 字 保 存 前 贴 板 内 容 
根据 用 户 和 希望 保存 文本 到 一 个 关键 字 ， 或 加 载 文本 到 剪贴 板 ， 或 列 


出 已 有 的 关键 字 ， 该 程序 做 的 事情 不 一 样 。 让 我 们 来 处 理 第 一 种 情况 。 
让 你 的 代码 看 起 来 像 这 样 : 








#! python3 
# mcb.pyw - Saves and loads pieces of text to the clipboard. 
--snip 


# Save clipboard content. 


@ if len(sys.argv) == 3 and sys.argv[1].lower() == 'save': 


@ mcbShelf[sys.argv[2]] = pyperclip.paste() 


elif len(sys.argv) == 2: 


日 # TODO: List keywords and load content. 


mcbShelf.close() 


如 果 第 一 个 命令 行 参 数 〈 它 总 是 在 sys.argv 列 表 的 下 标 1 处 ) 是 字符 
串 'save' @Q@， 第 二 个 命令 行 参数 就 是 保存 剪贴 板 当 前 内 容 的 关键 字 。 关 
键 字 将 用 做 mcbShelf 中 的 键 ， 值 就 是 当前 剪贴 板 上 的 文本 仿 . 


如 打 只 有 一 个 命令 行 参数 ， 就 假定 它 要 么 是 1ist， 要 么 是 需要 加 载 
到 勇 贴 板 的 关键 字 。 稍 后 你 将 实现 这 些 代 码 。 现 在 只 是 放 上 一 条 TODO 
注释 @。 
第 3 步 : 列 出 关键 字 和 加 载 关 键 字 的 内 容 


最 后 ， 让 我 们 实现 剩 下 的 两 种 情况 。 用 户 和 希望 从 关键 字 加 载 甬 贴 板 
文本 ， 或 希望 列 出 所 有 可 用 的 关键 字 。 让 你 的 代码 看 起 来 像 这 样 : 








#! python3 
# mcb.pyw - Saves and loads pieces of text to the clipboard. 
--snip 


# Save clipboard content. 
if len(sys.argv) == 3 and sys.argv[1].lower() == 'save': 
mcbShelf[sys.argv[2]] = pyperclip.paste() 
elif len(sys.argv) == 2: 
# List keywords and load content. 


@ if sys.argv[1].lower() == ‘list’: 


@ pyperclip.copy(str(list(mcbShelf.keys()))) 


elif sys.argv[1] in mcbShelf: 


© pyperclip.copy(mcbShelf[sys.argv[1]]) 


mcbShelf.close() 











如 果 只 有 一 个 命令 行 参 数 ， 首 先 检 查 它 是 不 是 "ist @. WA, K 
示 shelf 键 的 列表 的 字符 串 将 被 拷贝 到 藤 贴 板 介 。 用 户 可 以 将 这 个 列表 找 
贝 到 一 个 打开 的 文本 编辑 器 ， 进 行 查看 。 


人 否则， 你 可 以 假定 该 命令 行 参 数 是 一 个 关键 字 。 如 果 这 个 关键 字 是 
shelf 中 的 一 个 键 ， 就 可 以 将 对 应 的 值 加 载 到 剪贴 板 合 。 


齐 活 了 ! 加 载 这 个 程序 有 几 个 不 同步 又， 这 取决 于 你 的 计算 机 使 用 
哪 种 操作 系统 。 请 碍 看 附录 B， 了 解 操 作 系统 的 详情 。 


回忆 一 下 第 6 音 中 创建 的 口令 保管 箱 程序 ， 它 将 口令 保存 在 一 个 字 
典 中 。 更 新 口令 需要 更 改 该 程序 的 源 代码 。 这 不 太 理 想 ， 因 为 普通 用 户 
不 太 适 应 通过 更 改 源 代码 来 更 新 他 们 的 软件 。 而 且 ， 每 次 修改 程序 的 源 




















代码 时 ， 就 有 可 能 不 小 心 引入 新 的 缺陷 。 将 程序 的 数据 保存 在 不 同 的 地 
方 ， 而 不 是 在 代码 中 ， 就 可 以 让 别人 更 容易 使 用 你 的 程序 ， 并 且 更 不 容 
易 出 错 。 


8.7 /)\ 25 


文件 被 组 织 在 文件 夹 中 也 称 为 目录 〉， 路 径 描述 了 一 个 文件 的 位 
置 。 运 行 在 计算 机 上 的 每 个 程序 都 有 一 个 当前 工作 目录 ， 它 让 你 相对 于 
当前 的 位 置 指定 文件 路 径 ， 而 非 总 是 需要 完整 路 径 〈 绝 对 路 径 ) 。 
os.path 模 块 包含 许多 函数 ， 用 于 操作 文件 路 径 。 


你 的 程序 也 可 以 下 接 操 作文 本 文件 的 内 容 。open0 〇 函数 将 打开 这 些 
文件 ， 将 它们 的 内 容 读 取 为 一 个 大 字符 串 (利用 reae() 方 法 ) ， 或 读 取 
为 字符 串 的 列表 (利用 方法 readlines()) 。Open0 函 数 可 以 将 文件 以 写 模 
A T 0 

A 
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手工 输入 。 现 在 你 可 以 用 程序 直接 读 取 人 硬盘 上 的 文件 ， 这 是 一 大 进步 。 
因为 文件 比 枉 贴 板 更 不 易 变化 。 在 下 一 半 中 ， 你 将 学 习 如 何 处 理 文件 本 
喘 ， 包 括 复 制 、 删 除 、 重 命名 、 移 动 等 。 






































8.8 习题 
1. 相对 路 径 是 相对 于 什么 ? 
2. 绝对 路 径 从 什么 开始 ? 
3. os.getcwd0 和 os.chdir0 函 数 做 什么 事 ? 
4. .和 .. 文 件 夹 是 什么 ? 





5. 在 C:\bacon\eggs\spam.txt 中 ， 哪 一 部 分 是 目录 名 称 ， 哪 一 部 分 是 
基本 名 称 ? 


6. 可 以 传递 给 open0 〇 函数 的 3 种 “模式 ”参数 是 什么 ? 





7. 如 果 已 有 的 文件 以 写 模式 打开 ， 会 发 生 什 么 ? 
8. read() 和 readlines() 方 法 之 间 的 区 别 是 什么 ? 
9. shelf 值 与 什么 数据 结构 相似 ? 


8.9 实践 项 日 

作为 实践 ， 设 计 并 编写 下 列 程序 。 
8.9.1 扩展 多 重 剪 贴 板 

扩展 本 章 中 的 多 重 剪贴 板 程序 ， 增 加 一 个 delete <keyword> 命 令 行 
参数 ， 它 将 从 shelf 中 删除 一 个 关键 字 。 然 后 添加 一 个 delete 命 令 行 参 
数 ， 它 将 删除 所 有 关键 字 。 
8.9.2 疯狂 填词 

创建 一 个 疯狂 填词 (Mad Libs) 程序 ， 它 将 读 入 文本 文件 ， 并 让 用 


户 在 该 文本 文件 中 出 现 ADJECTIVE、NOUN、ADVERB 或 VERB 等 单词 
和 





The ADJECTIVE panda walked to the NOUN and then VERB. A nearby NOUN was 
unaffected by these events. 





程序 将 找到 这 些 出 现 的 单词 ， 并 提示 用 户 取代 它们 。 





Enter an adjective: 
silly 


Enter a noun: 
chandelier 


Enter a verb: 
screamed 


Enter a noun: 
pickup truck 





以 下 的 文本 文件 将 被 创建 : 


The silly panda walked to the chandelier and then screamed. A nearby pickup 
truck was unaffected by these events. 





结果 应 该 打印 到 屏幕 上 ， 并 保存 为 一 个 新 的 文本 文件 。 


8.9.3 正则 表达 式 查 找 


编写 一 个 程序 ， 打 开 文件 夹 中 所 有 的 .txt 文 件 ， 查 找 匹 配 用 户 提 供 
的 正则 表达 式 的 所 有 行 。 结 果 应 该 打印 到 屏幕 上 。 


PIE ”组 织 文件 


在 上 一 章 中 ， 你 学 习 了 如 何 用 Python 创建 并 写 入 新 文件 。 你 的 程序 
也 可 以 组 织 人 硬盘 上 已 经 存在 的 文件 。 也 许 你 曾经 经 历 过 但 找 一 个 文件 
夹 ， 里 面 有 几 十 个 、 几 百 个 ， 甚 至 上 千 个 文件 ， 需 要 手工 进行 复制 、 改 
名 、 移 动 或 压 缠 。 或 者 考虑 下 面 这 样 的 任务 : 


° ee ri 复制 所 有 的 pdf 文件 〈 且 只 复 
jpdf 文 件 ) 

。 针对 一 个 文件 夹 中 的 所 有 文件 ， 删 除 文件 名 中 前 寻 的 零 ， 该 文件 夹 
中 有 数 百 个 文件 ， 名 为 spam001.txt、spam002.txt、spam003.txt 等 。 

。 将 几 个 文件 夹 的 内 容 压缩 到 一 个 ZIP 文 件 中 〈 这 可 能 是 一 个 简单 的 
备份 系统 ) 


所 有 这 种 无 聊 的 任务 ， 正 是 在 请 求 用 Python 实现 自动化。 通过 对 电 
脑 编 程 来 完成 这 些 任务 ， 你 就 把 它 变 成 了 一 个 快速 工作 的 文件 职员 ， 而 
且 从 不 犯错 。 


在 开始 处 理 文件 时 你 会 发 现 ， 如 果 能 够 很 快 得 看 文件 的 扩展 名 
Ctxt、.pdf、.jpg 等 ) ， 是 很 有 帮助 的 。 在 OS X 和 Linux 上 ， 文 件 浏览 需 
很 有 可 能 自动 显示 扩展 名 。 在 Windows 上 ， 文 件 扩展 名 可 能 默认 是 隐藏 
的 。 要 显示 扩展 名 ， 请 点 开 Starte Control Panel » Appearance 和 
Personalization > Folder 选 项 。 在 View 选 项 卡 中 ，Advanced Settings 之 
下 ， 取 消 Hide extensions for known file types 复 选 框 。 



































9.1 shutil 模 块 
shutil 〈 或 称 为 shell 工 具 ) 模块 中 包含 一 些 函 数 ， 让 你 在 Python 程 序 
中 复制 、 移 动 、 改 名 和 删除 文件 。 要 使 用 shutil 的 函数 ， 首 移 需 要 import 


shutil. 


9.1.1 复制 文件 和 文件 夹 
shutil 模 块 提供 了 一 些 函 数 ， 用 于 复制 文件 和 整个 文件 夹 。 


调用 shutil.copy(source, destination)， 将 路 径 source 处 的 文件 复制 到 路 
径 destination 处 的 文件 夹 (source 和 destination 都 是 字符 串 ) 。 如 果 
destination 是 一 个 文件 名 ， 它 将 作为 被 复制 文件 的 新 名 字 。 该 函数 返回 
一 个 字符 串 ， 表 示 被 复制 文件 的 路 径 。 

在 交互 式 环境 中 输入 以 下 代码 ， 看 看 shutil.copy() 的 效果 : 


>>> import shutil, os 


>>> os.chdir('C:\\') 


@ >>> shutil.copy('C:\\spam.txt', 'C:\\delicious') 


"C:\\delicious\\spam.txt' 
@ >>> shutil.copy('eggs.txt', 'C:\\delicious\\eggs2.txt') 


"C:\\delicious\\eggs2.txt' 





第 一 个 shutil.copy0 调 用 将 文件 Ci\spam.txt 复 制 到 文件 夹 
C:delicious。 返 回 值 是 刚刚 被 复制 的 文件 的 路 径 。 请 注意 ， 因 为 指定 了 
一 个 文件 夹 作 为 目的 地 @， 原 来 的 文件 名 spam.txt 束 被 用 作 新 复制 的 文 
件 名 。 第 二 个 shutil.copy0) 调 用 人 也 将 文件 Ci\eggs.txt 复 制 到 文件 夹 
Ci\delicious， 但 为 新 文件 提供 了 一 个 名 字 eggs2.txt。 





shutil.copy0) 将 复制 一 个 文件 ，shutil.copytree() 将 复制 整个 文件 夹 ， 
以 及 它 包 含 的 文件 夹 和 文件 。 调 用 shutil.copytree(source, destination), 44 
路 径 source 处 的 文件 来， 包括 它 的 所 有 文件 和 子 文件 夹 ， 复 制 到 路 径 
destination 处 的 文件 夹 。source 和 destination 参 数 都 是 字符 串 。 该 函数 返 
回 一 个 字符 串 ， 是 新 复制 的 文件 夹 的 路 径 。 


在 交互 式 环境 中 输入 以 下 代码 : 





>>> import shutil, os 


>>> os.chdir('C:\\') 


>>> shutil.copytree('C:\\bacon', 'C:\\bacon backup') 


"C:\\bacon_backup' 





shutil.copytree() 调 用 创建 了 一 个 新 文件 来， 名 为 bacon_backup， 其 
ih 的 内 容 与 原来 的 bacon 文 件 夹 一 样 。 现 在 你 已 经 备份 了 非常 非常 宝贵 
*] “bacon”。 


9.1.2 文件 和 文件 夹 的 移动 与 改名 


调用 shutil.move(source, destinatiom)， 将 路 径 source 处 的 文件 夹 移动 
到 路 径 destination， 并 返回 新 位 置 的 绝对 路 径 的 字符 串 。 


如 果 destination 指 向 一 个 文件 夹 ，source 文 件 将 移动 到 destination 
中 ， 并 保持 原来 的 文件 名 。 例 如 ， 在 交互 式 环 境 中 输入 以 下 代码 : 





>>> import shutil 


>>> shutil.move('C:\\bacon.txt', 'C:\\eggs') 


"C:\\eggs\\bacon.txt' 








假定 在 C:\ 目 录 中 已 存在 一 个 名 为 eggs 的 文件 来 ， 这 个 shutil.move() 
调用 就 是 说 ,，“ 将 C:\bacon.txt 移 动 到 文件 夹 C:\eggs 中 。 


如 果 在 C:eggs 中 原来 已 经 存在 一 个 文件 bacon.txt， 它 就 会 被 禾 写 。 
因为 用 这 种 方式 很 容易 不 小 心 履 写 文件 ， 所 以 在 使 用 move0 时 应 该 注 
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局 \ o 











destination 路 径 也 可 以 指定 一 个 文件 名 。 在 下 面 的 例子 中 ，source 文 
件 被 移动 并 改名 。 





>>> shutil.move('C:\\bacon.txt', 'C:\\eggs\\new_bacon.txt') 


"C:\\eggs\\new_bacon.txt' 





这 一 行 是 说 ，“ 将 Ci:\bacon.txt 移 动 到 文件 夹 C:\eggs， 完 成 之 后 ， 将 
bacon.txt LEA Anew_bacon.txt. ” 


前 面 两 个 例子 都 假设 在 C:\ 目 录 下 有 一 个 文件 夹 eggs。 但 是 如 果 没 有 
eggs 文 件 夹 ，move() 束 会 将 bacon.txt 改 名 ， 变 成 名 为 eggs 的 文件 。 





>>> shutil.move('C:\\bacon.txt', 'C:\\eggs') 





这 里 ，move0O 在 C:\ 目 录 下 找 不 到 名 为 eggs 的 文件 夹 ， 所 以 假定 
destination 指 的 是 一 个 文件 ， 而 非 文 件 夹 。 所 以 bacon.txt 文 本 文件 被 改名 
(没有 .txt 文 件 扩 展 名 的 文本 文件 ) ， 但 这 可 能 不 是 你 所 希望 的 ! 

可 能 是 程序 中 很 难 发 现 的 缺陷 ， 因 为 move(O) 调 用 会 很 开心 地 做 一 些 事 
i PNK :所 期 望 的 完全 不 同 。 这 也 是 在 使 用 move0 时 要 小 心 的 另 一 个 
理由 。 


最 后 ， 构 成 目的 地 的 文件 夹 必须 已 经 存在 ， 否 则 Python 会 抛 出 异 
常 。 在 交互 式 环境 中 输入 以 下 代码 : 

















>>> shutil.move('spam.txt', 'c:\\does not exist\\eggs\\ham') 


Traceback (most recent call last): 
File "C:\Python34\lib\shutil.py", line 521, in move 
os.rename(src, real_dst) 
FileNotFoundError: [WinError 3] The system cannot find the path specified: 
"spam.txt' -> 'c:\\does_not_exist\\eggs\\ham' 


During handling of the above exception，another exception occurred : 


Traceback (most recent call last): 
File "< pyshell#29>", line 1, in < module> 
shutil.move('spam.txt', 'c:\\does_not_exist\\eggs\\ham' ) 
File "C:\Python34\lib\shutil.py", line 533, in move 
copy2(src, real_dst) 
File "C:\Python34\lib\shutil.py", line 244, in copy2 
copyfile(src, dst, follow_symlinks=follow_symlinks) 
File "C:\Python34\lib\shutil.py", line 108, in copyfile 
with open(dst, 'wb') as fdst: 
FileNotFoundError: [Errno 2] No such file or directory: ‘c:\\does_not_exist 
eggs\\ham' 





Python 在 does_not_exist 目 录 中 寻找 eggs 和 ham。 它 没有 找到 不 存在 


的 目录 ， 所 以 不 能 将 spam.txt 移 动 到 指定 的 路 径 。 
9.1.3 永久 删除 文件 和 文件 夹 


利用 os 模块 中 的 函数 ， 可 以 删除 一 个 文件 或 一 个 空 文件 夹 。 但 利用 
shutil 模 块 ， 可 以 删除 一 个 文件 夹 及 其 所 有 的 内 容 。 


e 用 os.unlink(path) 将 删除 path 处 的 文件 。 

。 调用 os.rmndir(patb) 将 删除 path 处 的 文件 夹 。 该 文件 夹 必须 为 空 ， 其 
中 没有 任何 文件 和 文件 夹 。 

e 调用 shutil.rmtree(path) 将 删除 path 处 的 文件 夹 ， 它 包含 的 所 有 文件 和 
文件 夹 都 会 被 删除 。 


在 程序 中 使 用 这 些 函 数 时 要 小 心 ! 可 以 第 一 次 运行 程序 时 ， 注 释 掉 
这 些 调用 ， 并 且 加 上 printO 调 用 ， 显 示 会 被 删除 的 文件 。 这 样 做 是 一 个 
好 主意 。 下 面 有 一 个 Python 程序 ， 本 来 打算 删除 具有 .txt 扩 展 名 的 文件 ， 
但 有 一 处 录入 错误 《用 粗 体 突 出 显示 ) ， 结 末 导 致 它 删除 了 .rxt 文 件 。 




















import os 
for filename in os.listdir(): 
if filename.endswith('.r 


xt'): 


os.unlink(filename) 





DUAR VIA EE SCPE xt ie, EM at eA kA 
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import os 
for filename in os.listdir(): 
if filename.endswith('.rxt'): 
#os.unlink(filename) 


print(filename) 





现在 os.unlinkO 调 用 被 注释 掉 ， 所 以 Python 会 忽略 它 。 作 为 奉 代 ， 你 
会 打印 出 将 被 删除 的 文件 名 。 先 运行 这 个 版 本 的 程序 ， 你 就 会 知道 ， 你 
不 小 心 告诉 程序 要 删除 .rxt 文 件 ， 而 不 是 .txt 文 件 。 


在 确定 程序 按照 你 的 意图 工作 后 ， 删 除 print(filename) 代 码 行 ， 取 消 
os.Unlink(filename) 代 码 行 的 注释 。 然 后 再 次 运行 该 程序 ， 实 际 删除 这 些 
文件 











9.1.4 用 send2trash 模 块 安全 地 删除 


为 Python 内 建 的 shutilrmtreeO 函 数 不 可 恢复 地 删除 文件 和 文件 
夹 ， 所 以 用 起 来 可 能 有 和 危险。 删除 文件 和 文件 夹 的 更 好 方法 ， 是 使 用 第 
三 方 的 send2trash 模 块 。 你 可 以 在 终端 窗口 中 运行 pip install send2trash, 
ao 《参见 附录 A， 其 中 更 详细 地 解释 了 如 何 安装 第 三 方 模 
Joa 


利用 send2trash， 比 Python 常规 的 删除 函数 要 安全 得 多 ， 





为 它 会 将 


BH 


文件 夹 和 文件 发 送 到 计算 机 的 垃圾 箱 或 回收 若 ， 而 不 是 永久 删除 它们 。 
如 末 因 程序 缺陷 而 用 send2trash 删 除了 某 些 你 不 想 删除 的 东西 ， 稍 后 可 
以 从 垃圾 箱 恢 复 。 


安装 send2trash 后 ， 在 交互 式 坏 境 中 输入 以 下 代码 : 





>>> import send2trash 


>>> baconFile = open('bacon.txt', 'a') # creates the file 


>>> baconFile.write('Bacon is not a vegetable. ') 


25 
>>> baconFile.close() 


>>> send2trash.send2trash('bacon.txt') 








一 般 来 说 ， 总 是 应 该 使 用 send2trash.send2trashO 函 数 来 删除 文件 和 
文件 夹 。 虽 然 它 将 文件 发 送 到 垃圾 箱 ， 让 你 稍 后 能 够 恢复 它们 ， 但 是 这 


不 像 永 久 删 除 文 件 ， 不 会 释放 磁盘 空间 。 如 果 你 希望 程序 释放 磁盘 空 
间 ， 就 要 用 os 和 shutil 来 删除 文件 和 文件 来。 请 注意 ，send2trash() 了 水 数 只 
能 将 文件 送 到 垃圾 箱 ， 不 能 从 中 恢复 文件 。 


9.2 遍历 目录 树 

假定 你 希望 对 某 个 文件 夹 中 的 所 有 文件 改名 ， 包 括 该 文件 夹 中 所 有 
子 文件 夹 中 的 所 有 文件 。 也 就 是 说 ， 你 希望 遍历 目录 树 ， 处 理 遇 到 的 每 
个 文件 。 写 程序 完成 这 件 事 ， 可 能 需要 一 些 技巧 。 好 在 ，Python 提 供 了 
一 个 函数 ， 蔡 你 处 理 这 个 过 程 。 


请 看 Ci:\delicious 文 件 夹 及 其 内 容 ， 如 图 9-1 所 示 。 














| delicious 
cats 
cafnames. txt 


zophie.jpg 


walnut 


| waffles 


L butter.txt 


spam.txt 





图 9-1 一 个 示例 文件 来， 包含 3 个 文件 夹 和 4 个 文件 


这 里 有 一 个 例子 程序 ， 针 对 图 9-1 的 目录 树 ， 使 用 了 os.walkO 函 数 : 





import os 


for folderName, subfolders, filenames in os.walk('C:\\delicious'): 
print('The current folder is ' + folderName) 


for subfolder in subfolders: 

print('SUBFOLDER OF ' + folderName + ': ' + subfolder) 
for filename in filenames: 

print('FILE INSIDE ' + folderName + ': '+ filename) 


print('') 





os.walk() PRAT AEA — PAF BEL, MAARE E. PRAT 
fE—“Mortai 418 A) A Hos.walkQeiat, mA Se, at H range) 
KAEN — ANA rE A range(), os.walk()ZE (64 AY BER IE 
代 中 ， 返 回 3 个 值 : 


1. 当前 文件 夹 名 称 的 字符 串 。 
2. 当前 文件 夹 中 子 文 件 夹 的 字符 串 的 列表 。 
3. 当前 文件 夹 中 文件 的 字符 串 的 列表 。 


所 谓 当 前 文件 来 ， 是 指 for 循 环 当 前 迭代 的 文件 来。 程序 的 当前 工作 
目录 ， 不 会 因为 0s.walk0 而 改变 。 




















就 像 你 可 以 在 代码 for i in range(10): 中 选择 变量 名 称 i 一 样 ， 你 也 可 
以 选择 前 面 列 出 来 的 3 个 字 的 变量 名 称 。 我 通常 使 用 foldername、 


subfolders 和 filenames。 





运行 该 程序 ， 它 的 输出 如 下 : 





The current folder is C:\delicious 
SUBFOLDER OF C:\delicious: cats 

SUBFOLDER OF C:\delicious: walnut 
FILE INSIDE C:\delicious: spam.txt 


The current folder is C:\delicious\cats 
FILE INSIDE C:\delicious\cats: catnames.txt 
FILE INSIDE C:\delicious\cats: zophie. jpg 


The current folder is C:\delicious\walnut 
SUBFOLDER OF C:\delicious\walnut: waffles 


The current folder is C:\delicious\walnut\waffles 
FILE INSIDE C:\delicious\walnut\waffles: butter.txt. 


为 os.walk0 返 回 字 符 串 的 列表 ， 保 存在 subfolder 和 flename 变 量 
中 ， 所 以 你 可 以 在 它们 自己 的 for 循 环 中 使 用 这 些 列表 。 用 你 自己 定制 的 
代码 ， 取 代 printO 函 数 调用 《或 者 如 有 果 不 需要 ， 就 删除 for 循 环 ) 。 


9.3 用 zipfile 模 块 压缩 文件 


你 可 能 熟悉 ZIP 文 件 ( 带 有 .zip 文 件 扩展 名 〉 ， 它 可 以 包含 许多 其 他 
文件 的 压缩 内 容 。 压 缩 一 个 文件 会 减少 它 的 大 小 ， 这 在 因特网 上 传输 时 
很 有 用 。 因 为 一 个 ZIP 文 件 可 以 包含 多 个 文件 和 子 文件 来 ， 所 以 它 是 一 
种 很 方便 的 方式 ， 将 多 个 文件 打包 成 一 个 文件 。 这 个 文件 叫做 “归档 文 
件 ”， 然 后 可 以 用 作 电 子 邮件 的 附件 ， 或 其 他 用 途 。 


利用 zipfile 模 块 中 的 函数 ，Python 程 序 可 以 创建 和 打开 (或 解压 ) 
ZIP 文 件 。 假 定 你 有 一 个 名 为 example.zip 的 zip 文 件 ， 它 的 内 容 如 图 9-2 所 
示 。 








cats 


cafnames. fxt 


zophie. jpg 


spam. txt 


图 9-2 example.zip 的 内 容 


可 以 从 http://nostarch.com/automatestuff/ 下 载 这 个 ZIP 文 件 ， 或 者 利 
用 计算 机 上 已 有 的 一 个 ZIP 文 件 ， 接 着 完成 下 面 的 操作 。 


9.3.1 读 取 ZIP 文 件 


要 读 取 ZIP 文 件 的 内 容 ， 首 先 必 须 创 建 一 个 ZipFile 对 象 “请 注意 大 
写 首 字母 Z 和 F) 。ZipFile 对 象 在 概念 上 与 File 对 象 相似 ， 你 在 第 8 章 中 曾 
经 看 到 open0 函 数 返 回 File 对 象 : 它们 是 一 些 值 ， 程 序 通过 它们 与 文件 打 
交道 。 要 创建 一 个 ZipFile 对 象 ， 就 调用 zipfile.ZipFile() 函 数 ， 向 它 传 入 
一 个 字符 串 ， 表 示 .zip 文 件 的 文件 名 。 请 注意 ，zipfile 是 Python 模块 的 名 
称 ，ZipFileO0 是 函数 的 名 称 。 


例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 











>>> import zipfile，os 


>>> os.chdir('C:\\') # move to the folder with example.zip 


>>> exampleZip = zipfile.ZipFile('example.zip' ) 


>>> exampleZip.namelist() 


['spam.txt', ‘cats/', ‘cats/catnames.txt', ‘cats/zophie.jpg' ] 
>>> SpamInfo = exampleZip.getinfo('spam.txt' ) 


>>> spamInfo.file_size 


13908 
>>> spamInfo.compress_size 


3828 


@ >>> ‘Compressed file is %sx smaller!" % (round(spamInfo.file size / spamI 


-compress_ size, 2)) 


"Compressed file is 3.63x smaller!’ 
>>> exampleZip.close() 





ZipFile 对 象 有 一 个 hamelist() 方 法 ， 返 回 ZIP 文 件 中 包含 的 所 有 文件 
和 文件 夹 的 字符 串 的 列表 。 这 些 字 符 串 可 以 传递 给 ZipFile 对 象 的 
getinfo(0 方 法 ， 返 回 一 个 关于 特定 文件 的 ZipInfo 对 象 。ZipInfo 对 象 有 自 
已 的 属性 ， 诸 如 表示 字 节 数 的 fle_size 和 compress_size， 它 们 分 别 表 示 
原来 文件 大 小 和 压缩 后 文件 大 小 。ZipFile 对 象 表示 整个 归档 文件 ， 而 








ZipInfo 对 象 则 保存 该 归档 文件 中 每 个 文件 的 有 用 信息 。 
OO 处 的 命令 计算 出 example.zip 压 缩 的 效率 ， 用 压缩 后 文件 的 大 小 除 


以 原来 文件 的 大 小 ， 并 以 %s 字 符 串 格式 打印 出 这 一 信息 


9.3.2 从 ZIP 文 件 中 解压 缩 


ZipFile 对 象 的 extractall0) 方 法 从 ZIP 文 件 中 解压 缩 所 有 文件 和 文件 
夹 ， 放 到 当前 工作 目录 中 。 


>>> import zipfile，os 


>>> os.chdir('C:\\') # move to the folder with example.zip 


>>> exampleZip = zipfile.ZipFile('example.zip' ) 


@ >>> exampleZip.extractall() 


>>> exampleZip.close() 





运行 这 段 代 码 后 ，example.zip 的 内 容 将 被 解压 缩 到 C\。 或 者 ， 你 可 


以 同 extractall0 传 递 的 一 个 文件 夹 名 称 ， 它 将 文件 解压 缩 到 那个 文件 

来， 而 不 是 当前 工作 目录 。 如 果 传 递 给 extractall() 方 法 的 文件 夹 不 存 
在 ， 它 会 被 创建 。 例 如 ， 如 果 你 用 exampleZip.extractall('C:\ delicious) 取 
代 @ 处 的 调用 ， 代 码 就 会 从 example.zip 中 解压 缩 文 件 ， 放 到 新 创建 的 
Ci\delicious 文 件 夹 中 。 


ZipFile 对 象 的 extract(0) 方 法 从 ZIP 文 件 中 解压 缩 单个 文件 。 继 续 交 互 
式 环境 中 的 例子 : 





>>> exampleZip.extract('spam.txt') 


"C:\\spam.txt' 
>>> exampleZip.extract('spam.txt', 'C:\\some\\new\\folders' ) 


"Cc: \\some\\new\\folders\\spam. txt’ 
>>> exampleZip.close() 





传递 给 extractO 的 字符 串 ， 必 须 匹 配 namelistO0 返 回 的 字符 串 列 表 中 
的 一 个 。 或 者 ， 你 可 以 同 extract(0) 传 递 第 二 个 参数 ， 将 文件 解压 缩 到 指 
定 的 文件 夹 ， 而 不 是 当前 工作 目录 。 如 果 第 二 个 参数 指定 的 文件 夹 不 存 
在 ，Python 惑 会 创建 它 。extract0 的 返回 值 是 被 压缩 后 文件 的 绝对 路 


7, 
XB 


9.3.3 创建 和 添加 到 ZIP 文 件 











要 创建 你 自己 的 压缩 ZIP 文 件 ， 必 须 以 “ 写 模式 ?打开 ZipFile 对 象 ， 
即 传 入 'w' 作 为 第 二 个 参数 (这 类 似 于 同 open0 函 数 传 入 "Ww'， 以 写 模式 打 
AAAA 


如 果 回 ZipFile 对 象 的 write0) 方 法 传 入 一 个 路 径 ，Python 就 会 压缩 该 
路 径 所 指 的 文件 ， 将 它 加 到 ZIP 文 件 中 。write0) 方 法 的 第 一 个 参数 是 一 
个 字符 串 ， 代 表 要 添加 的 文件 名 。 第 二 个 参数 是 “压缩 类 型 > 参数， 它 告 
诉 计 算 机 使 用 怎样 的 算法 来 压缩 文件 。 可 以 总 是 将 这 个 值 设 置 为 
zipfile.ZIP_DEFLATED (这 指定 了 deflate 压 缩 算 法 ， 它 对 各 种 类 型 的 数 
据 都 很 有 效 ) 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import zipfile 


>>> newZip = zipfile.ZipFile('new.zip', 'w') 


>>> newZip.write('spam.txt', compress_type=zipfile.ZIP_DEFLATED) 


>>> newZip.close() 





这 上段 代码 将 创建 一 个 新 的 ZIP 文 件 ， 名 为 new.zip， 它 包含 spam.txt 压 
缩 后 的 内 容 。 





要 记 住 ， 就 像 写 入 文件 一 样 ， 写 模式 将 控 除 ZIP 文 件 中 所 有 原 有 的 
内 容 。 如 果 只 是 希望 将 文件 添加 到 原 有 的 ZIP 文 件 中 ， 就 要 向 
zipfile.ZipFile() 传 入 'a' 作 为 第 二 个 参数 ， 以 添加 模式 打开 ZIP 文 件 。 


9.4 项 目 : 将 市 有 美国 风格 日 期 的 文件 改名 为 欧洲 
风格 日 期 


假定 你 的 老板 用 电子 邮件 发 给 你 上 干 个 文件 ， 文 件 名 包含 美国 风格 
的 日 期 C(MM-DD-YYYY) ， 需 要 将 它们 改名 为 欧洲 风格 的 日 期 (DD- 
MM-YYYY) 。 手 工 完 成 这 个 无 聊 的 任务 可 能 需要 几 天 时 间 ! 让 我 们 写 
一 个 程序 来 完成 它 。 


下 面 是 程序 要 做 的 事 : 


。 检查 当前 工作 目录 的 所 有 文件 名 ， 寻 找 美 国 风格 的 日 期 。 
。 将 该 文件 改名 ， 交 换 月 份 和 日 期 的 位 置 ， 使 之 成 为 欧洲 
风格 。 


这 意味 看 代码 需要 做 下 面 的 事情 : 


创建 一 个 正则 表达 式 ， 可 以 识别 美国 风格 日 期 的 文本 模式 。 
调用 os.listdir()， 找 出 工作 目录 中 的 所 有 文件 。 
循环 裔 历 每 个 文件 名 ， 利 用 该 正则 表达 式 检 查 它 是 否 包 含 日 期 。 
如 果 它 包含 日 期 ， 用 shutil.move() 对 该 文件 改名 。 


对 于 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 占 和 窗口 ， 将 代码 保存 为 


renameDates.py。 
第 1 步 : 为 美国 风格 的 日 期 创建 一 个 正则 表达 式 

程序 的 第 一 部 分 需要 导入 必要 的 模块 ， 并 创建 一 个 正则 表达 式 ， 它 
能 识别 MM-DD-YYYY 格 式 的 日 期 。TODO 注 释 将 提醒 你 ， 这 个 程序 还 


要 写 什 么 。 将 它们 作为 TODO， 就 很 容易 利用 IDLE 的 Ctrl-F 碍 找 功能 找 
到 它们 。 让 你 的 代码 看 起 来 像 这 样 : 





























#! python3 
# renameDates.py - Renames filenames with American MM-DD-YYYY date format 


# to European DD-MM-YYYY. 
@ import shutil, os, re 


# Create a regex that matches files with the American date format. 


@ datePattern = re.compile(r"""%(.*?) # all text before the date 
((@|1)?\d)- # one or two digits for the month 
((@|1|2]3)?\d)- # one or two digits for the day 
((19| 20) \d\d) # four digits for the year 
(.*?)$ # all text after the date 

© "re. VERBOSE ) 


# TODO: Loop over the files in the working directory. 
# TODO: Skip files without a date. 

# TODO: Get the different parts of the filename. 

# TODO: Form the European-style filename. 

# TODO: Get the full, absolute file paths. 


# TODO: Rename the files. 





通过 本 章 ， 你 知道 shutil.move() 函 数 可 以 用 于 文件 改名 : 它 的 参数 
古 要 改名 的 文件 名 ， 以 及 新 的 文件 名 。 因 为 这 个 函数 存在 于 shutil 模 块 





中 ， 所 以 你 必须 导入 该 模块 @，。 


在 为 这 些 文件 改名 之 前 ， 需 要 确定 哪些 文件 要 改名 。 文 件 名 如 果 包 
含 spam4-4-1984.txt 和 01-03-2014eggs.zip 这 样 的 日 期 ， 就 应 该 改名 ， 而 文 
件 名 不 包含 日 期 的 应 该 忽略 ， 诸 如 littlebrother.epub。 


可 以 用 正则 表达 式 来 识别 该 模式 。 在 开始 导入 re 模块 后 ， 调 用 
re.compile() 创 建 一 个 Regex 对 象 信 。 传 入 re.VERBOSE 作 为 第 二 参数 @@， 
这 将 在 正则 表达 式 字 符 串 中 允许 空白 字符 和 注释 ， 让 它 更 可 读 。 


正则 表达 式 字 符 串 以 和 (.*?) 开 始 ， 匹 配 文件 名 开始 处 、 日 期 出 现 之 
前 的 任何 文本 。((0|1)?\qd) 分 组 匹配 月 份 。 第 一 个 数字 可 以 是 0 或 1， 所 以 
正则 表达 式 匹 配 12， 作 为 十 二 月 份 ， 也 会 匹配 02， 作 为 二 月 份 。 这 个 数 











字 也 是 可 选 的 ， 所 以 四 月 份 可 以 是 04 或 4。 日 期 的 分 组 是 ((0|1|2|3)?\d)， 

它 遵 循 类 似 的 逻辑 。3、03 和 31 是 有 效 的 日 期 数字 (是 的 ， 这 个 正则 表 
达 式 会 接受 一 些 无 效 的 日 期 ， 诸 如 4-31-2014、2-29-2013 和 0-15-2014。 

日 期 有 许多 特例 ， 很 容易 被 遗漏 。 为 了 简单 ， 这 个 程序 中 的 正则 表达 式 
已 经 足够 好 了 ) 。 


虽然 1885 是 一 个 有 效 的 年 份 ， 但 你 可 能 只 在 寻找 20 世 纪 和 21 世 纪 的 
年 份 。 这 防止 了 程序 不 小 心 匹配 非 日 期 的 文件 名 ， 它 们 和 日 期 格式 次 
似 ， 诸 如 10-10-1000.txt。 











正则 表达 式 的 (.*?)$ 部 分 ， 将 匹配 日 期 之 后 的 任何 文本 。 
第 2 步 : 识别 文件 名 中 的 日 期 部 分 


接 下 来 ， 程 序 将 循环 遍历 os.listdir() 返 回 的 文件 名 字符 串 列 表 ， 用 这 
个 正则 表达 式 匹 配 它们 。 文 件 名 不 包含 日 期 的 文件 将 被 忽略 。 如 果 文 件 
名 包 售 日期， 匹配 的 文本 将 保存 在 几 个 变量 中 。 用 下 面 的 代码 代替 程序 
中 前 3 个 TODO: 











#! python3 


# renameDates.py - Renames filenames with American MM-DD-YYYY date format 
# to European DD-MM-YYYY. 


--snip 


# Loop over the files in the working directory. 


for amerFilename in os.listdir('.'): 


mo = datePattern.search(amerFilename) 


# Skip files without a date. 


if mo == None: 


continue 


# Get the different parts of the filename. 


beforePart = mo.group(1) 


monthPart 


dayPart 


yearPart 


afterPart 


--snip 


= mo.group(2) 


= mo.group(4) 


= mo.group(6) 


= mo.group(8) 





如 果 search() 方 法 返回 的 Match 对 象 是 None@， 那 么 amerFilename 中 








的 文件 名 不 匹配 该 正则 表达 式 。continue 语 句 灸 将 跳 过 循环 剩 下 的 部 
分 RAPTAR. 


否则， 该 正则 表达 式 分 组 匹配 的 不 同 字符 吕 ， 将 保存 在 名 为 
beforePart. monthPart. dayPart. yearPart#llafterParH = FQ. mee 
量 中 的 字符 串 将 在 下 一 步 中 使 用 ， 用 于 构成 欧洲 风格 的 文件 名 。 


为 了 让 分 组 编号 直观 ， 请 尝试 从 头 阅读 该 正则 表达 式 ， 每 遇 到 一 个 


左 括号 束 计 数 加 一 。 不 要 考虑 代码 ， 只 是 写 下 该 正则 表达 式 的 框架 。 这 
有 助 于 使 分 组 变 得 直观 ， 例 如 : 








datePattern = re. compile(r" " "^(1 


) # all text before the date 
(2 

(3 

) )- # one or two digits for the month 
(4 

(5 

) )- # one or two digits for the day 
(6 


) ) # four digits for the year 
(8 


)$ # all text after the date 
'"", re.VERBOSE) 





这 里 ， 编 号 1 至 8 代表 了 该 正则 表达 式 中 的 分 组 。 写 出 该 正则 表达 式 
的 框架 ， 其 中 只 包含 括号 和 分 组 编写。 这 让 你 更 清楚 地 理解 所 写 的 正则 
表达 式 ， 然 后 再 转 癌 程序 中 剩 下 的 部 分 。 


第 3 步 : 构成 新 文件 名 ， 并 对 文件 改名 


作为 最 后 一 步 ， 连 接 前 一 步 生 成 的 变量 中 的 字符 串 ， 得 到 欧洲 风格 
的 日 期 : 日 期 在 月 份 之 前 。 用 下 面 的 代码 代 蔡 程序 中 最 后 3 个 TODO: 








#! python3 


# renameDates.py - Renames filenames with American MM-DD-YYYY date format 
# to European DD-MM-YYYY. 


--snip 


# Form the European-style filename. 


@ euroFilename = beforePart + dayPart + '-' + monthPart + '-' + yearPar 


afterPart 


# Get the full, absolute file paths. 


absWorkingDir = os.path.abspath('.') 


amerFilename = os.path.join(absWorkingDir, amerFilename) 


euroFilename = os.path.join(absWorkingDir, euroFilename) 


# Rename the files. 


@ print('Renaming "%s" to "%s"...' % (amerFilename, euroFilename) ) 


© #shutil.move(amerFilename, euroFilename) # uncomment after testing 





将 连接 的 字符 串 保存 在 名 为 euroFilename 的 变量 中 @@。 人 然后 将 
amerFilename 中 原来 的 文件 名 和 新 的 euroFilename 变 量 传递 给 
shutil.move) KZ, KZL AZO. 


这 个 程序 将 shutil.move() 调 用 注释 挥 ， 代 之 以 打印 出 将 被 改名 的 文 
件 名 介 。 先 像 这 样 运行 程序 ， 你 可 以 确认 文件 改名 是 正确 的 。 然 后 取消 
shutil.move() 调 用 的 注释 ， 再 次 运行 该 程序 ， 确 实 将 这 些 文件 改名 。 
第 4 步 : 类 似 程序 的 想法 

有 很 多 其 他 的 理由 ， 导 致 你 需要 对 大 量 的 文件 改名 。 

。 为 文件 名 添加 前 级 ， 诸 如 添加 spam_， 将 eggs.txt 改 名 为 
spam_eggs.txt。 
。 将 欧洲 风格 日 期 的 文件 改名 为 美国 风格 日 期 。 
。 删除 文件 名 中 的 0， 诸 如 spam0042.txt。 
9.5 项 目 : 将 一 个 文件 夹 备份 到 一 个 ZIP 文 件 


假定 你 正在 做 一 个 项 目 ， 它 的 文件 保存 在 C:\AlsPythonBook 文 件 夹 








中 。 你 担心 工作 会 丢失 ， 所 以 希望 为 整个 文件 夹 创建 一 个 ZIP 文 件 ， 作 
为 “快照 ?”。 你 希望 保存 不 同 的 版 本 ， 和 希望 ZIP 文 件 的 文件 名 每 次 创建 时 
都 有 所 变化 。 例如 AlsPythonBook_1.zip、 AlsPythonBook_2.zip、 

AlsPythonBook_3.zip， 等 等 。 你 可 以 手工 完成 ， 但 这 有 点 烦人 ， 而 且 可 
i R 


针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保存 为 
backupToZip.py。 
第 1 步 : 和 弄 清楚 ZIP 文 件 的 名 称 


这 个 程序 的 代码 将 放 在 一 个 名 为 backupToZip() 的 函数 中 。 这 样 就 更 
容易 将 该 函数 复制 粘贴 到 其 他 需要 这 个 功能 的 Python 程 序 中 。 在 这 个 程 
序 的 末尾 ， 会 调用 这 个 函数 进行 备份 。 让 你 的 程序 看 起 来 像 这 样 : 

















#! python3 
# backupToZip.py - Copies an entire folder and its contents into 
# a ZIP file whose filename increments. 


@ import zipfile, os 


def backupToZip(folder): 
# Backup the entire contents of "folder" into a ZIP file. 


folder = os.path.abspath(folder) # make sure folder is absolute 


# Figure out the filename this code should use based on 
# what files already exist. 


@ number = 1 
© while True: 
zipFilename = os.path.basename(folder) + '_' + str(number) + '.zi 
if not os.path.exists(zipFilename): 
break 


number = number + 1 
@ # TODO: Create the ZIP file. 


# TODO: Walk the entire folder tree and compress the files in each fo 
print('Done.') 


backupToZip('C:\\delicious' ) 


| 


先 完成 基本 任务 : 添加 胡 行 ， 描 述 该 程序 做 什么 ， 并 导入 zipfile 和 
os 模块 @。 


定义 backupToZip() 函 数 ， 它 只 接收 一 个 参数 ， 即 folder。 这 个 参数 
是 一 个 字符 串 路 径 ， 指 向 需要 备份 的 文件 严 。 该 函数 将 决定 它 创建 的 
ZIP 文 件 使 用 什么 文件 名 ， 然 后 创建 该 文件 ， 遍 历 folder 文 件 夹 ， 将 每 个 
子 文件 夹 和 文件 添加 到 ZIP 文 件 中 。 在 源 代码 中 为 这 些 步 又 写 下 TODO 
注释 ， 提 醒 你 稍 后 来 完成 @. 


第 一 部 分 命名 这 个 ZIP 文 件 ， 使 用 folder 的 绝对 路 径 的 基本 名 称 。 如 
果 要 备份 的 文件 夹 是 Ci\delicious，ZIP 文 件 的 名 称 就 应 该 是 
delicious_N.zip， 第 一 次 运行 该 程序 时 N=1， 第 二 次 运行 时 N=2， 以 此 类 
推 。 

通过 检查 delicious_1.zip 是 否 存在 ， 然 后 检查 delicious_2.zip 是 否 存 
在 ， 继 续 下 去 ， 可 以 确定 N 应 该 是 什么 。 用 一 个 名 为 number 的 变量 表示 
N@@， 在 一 个 循环 内 不 断 增加 它 ， 并 调用 os.path.exists() 来 检查 该 文件 是 
个 存在 个 .第 一 个 不 存在 的 文件 名 将 导致 循环 break， 因 此 它 就 发 现 了 
新 ZIP 文 件 的 文件 名 。 


第 2 步 : 创建 新 ZIP 文 件 
接 下 来 让 我 们 创建 ZIP 文 件 。 让 你 的 程序 看 起 来 像 这 样 : 














#! python3 
# backupToZip.py - Copies an entire folder and its contents into 
# a ZIP file whose filename increments. 


--snip 


while True: 
zipFilename = os.path.basename(folder) + '_' + str(number) + '.zi 
if not os.path.exists(zipFilename): 


break 
number = number + 1 


# Create the ZIP file. 


print('Creating %s...' % (zipFilename) ) 


© backupZip = zipfile.ZipFile(zipFilename, 'w') 


# TODO: Walk the entire folder tree and compress the files in each fo 
print('Done.') 


backupToZip('C:\\delicious' ) 





既然 新 ZIP 文 件 的 文件 名 保存 在 zipFilename 变 量 中 ， 你 就 可 以 调用 
zipfile.ZipFile()， 实 际 创建 这 个 ZIP 文 件 @。 确 保 传 入 'w' 作 为 第 二 个 参 
数 ， 这 样 ZIP 文 件 以 写 模式 打开 。 


第 3 步 : 遇 历 目录 树 并 添加 到 ZIP 文 件 


现在 需要 使 用 0s.walk0 〇 函数 ， 列 出 文件 夹 以 及 子 文件 夹 中 的 每 个 文 
件 。 让 你 的 程序 看 起 来 像 这 样 : 








#! python3 
# backupToZip.py - Copies an entire folder and its contents into 
# a ZIP file whose filename increments. 


--snip 


# Walk the entire folder tree and compress the files in each folder. 


@ for foldername, subfolders, filenames in os.walk(folder): 


print('Adding files in %s...' % (foldername) ) 


# Add the current folder to the ZIP file. 


@ backupZip.write(foldername) 


# Add all the files in this folder to the ZIP file. 


© for filename in filenames: 


newBase / os.path.basename(folder) + '_' 


if filename.startswith(newBase) and filename.endswith('.zip') 


continue # don't backup the backup ZIP files 


backupZip.write(os.path.join(foldername, filename)) 


backupZip.close() 


print('Done.') 


backupToZip('C:\\delicious' ) 
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代 当 前 的 文件 夹 名 称 、 这 个 文件 夹 中 的 子 文 件 夹 ， 以 及 这 个 文件 夹 中 的 


文件 名 。 

在 这 个 for 循 环 中 ， 该 文件 夹 被 添加 到 ZIP 文 件 介 。 骨 套 的 for 循 环 将 
遍历 f 仙 enames 列 表 中 的 每 个 文件 人 @。 每 个 文件 都 被 添加 到 ZIP 文 件 中 ， 
以 前 生成 的 备份 ZIP 文 件 除外 。 


如 果 运 行 该 程序 ， 它 产生 的 输出 看 起 来 像 这 样 : 





Creating delicious 1.zip... 

Adding files in C:\delicious... 

Adding files in C:\delicious\cats... 
Adding files in C:\delicious\waffles... 
Adding files in C:\delicious\walnut... 


Adding files in C:\delicious\walnut\waffles... 
Done. 





第 二 次 运行 它 时 ， 它 将 Ci\delicious 中 的 所 有 文件 放 进 一 个 ZIP 文 
件 ， 命 名 为 delicious_2.zip， 以 此 类 推 。 


第 4 步 : 类 似 程序 的 想法 


你 可 以 在 其 他 程序 中 遍历 一 个 目录 树 ， 将 文件 添加 到 压缩 的 Z 了 了 归 
档 文 件 中 。 例 如 ， 你 可 以 编程 做 下 面 的 事情 : 


。 通 历 一 个 目录 树 ， 将 特定 扩展 名 的 文件 归档 ， 诸 如 .txt 或 py， 并排 
除 其 他 文件 。 

。 通 历 一 个 目录 树 ， 将 除 .xt 和 .py 文件 以 外 的 其 他 文件 归档 。 

。 在 一 个 目录 树 中 查找 文件 夹 ， 它 包含 的 文件 数 最 多 ， 或 者 使 用 的 磁 
盘 空 间 最 大 。 











9.6 小 结 


即使 你 是 一 个 有 经 验 的 计算 机 用 户 ， 可 能 也 会 用 鼠标 和 键盘 手工 处 
理 文件 。 现 在 的 文件 浏览 器 使 得 处 理 少量 文件 的 工作 很 容易 。 但 有 时 
候 ， 如 果 用 计算 机 的 浏览 器 ， 你 需要 完成 的 任务 可 能 要 花 几 个 小 时 。 


os 和 shutil 模 块 提供 了 一 些 函 数 ， 用 于 复制 、 移 动 、 改 名 和 删除 文 
件 。 在 删除 文件 时 ， 你 可 能 希望 使 用 send2trash 模 块 ， 将 文件 移动 到 回 
收 站 或 垃圾 箱 ， 而 不 是 永久 地 删除 它们 。 在 编程 处 理 文件 时 ， 最 好 是 先 
注释 抒 实 际会 复制 /移动 /改名 /删除 文件 的 代码 ， 添 加 printO 调 用 ， 这 样 
你 就 可 以 运行 该 程序 ， 验 证 它 实际 会 做 什么 。 


， 你 不 仅 需 要 对 一 个 文件 夹 中 的 文件 执行 这 些 操作 ， 而 是 对 所 
E ARTE. os.walk0) 函 数 将 处 理 这 个 艰 百 工作 ， 通 历 文 
件 夹 ， 这 样 你 就 可 以 专注 于 程序 需要 对 其 中 的 文件 做 什么 。 


zipfile 模 块 提供 了 一 种 方法 ， 用 Python 压 缩 和 解压 ZIP 归 档 文件 。 和 
os 和 shutil 模 块 中 的 文件 处 理 函 数 一 起 使 用 ， 很 容易 将 人 硬盘 上 任意 位 置 的 
一 些 文件 打包 。 和 许多 独立 的 文件 相 比 ， 这 些 ZIP 文 件 更 容易 上 传 到 网 
站 ， 或 作为 E-mail 附件 发 送 。 


本 书 前 面 几 半 提供 了 源 代码 让 你 拷贝 。 但 如 果 你 编写 自己 的 程序 ， 
可 能 在 第 一 次 编写 时 不 会 完美 无 缺 。 下 一 章 将 聚焦 于 一 些 Python 模块 ， 
它们 帮助 你 分 析 和 调试 程序 ， 这 样 束 能 让 程序 很 快 正确 运行 。 























9.7 习题 
1. shutil.copy() 和 shutil.copytree() 之 间 的 区 别 是 什么 ? 
2. 什么 函数 用 于 文件 改名 ? 
3. send2trash 和 shutil 模 块 中 的 删除 函数 之 间 的 区 别 是 什么 ? 


ZipFile 对 象 有 一 个 close(0) 方 法 ， 就 像 File 对 象 的 close() 方 法 。 
eee 象 的 什么 方法 等 价 于 File 对 象 的 open0 方 法 ? 


9.8 实践 项 目 
作为 实践 ， 编 程 完 成 下 面 的 任务 。 
9.8.1 选择 性 拷贝 
编写 一 个 程序 ， 过 历 一 个 目录 树 ， 碍 找 特定 扩展 名 的 文件 〈 诸 


人 。 不 论 这 些 文件 的 位 置 在 哪里 ， 将 它们 拷贝 到 一 个 新 的 文 


9.8.2 删除 不 需要 的 文件 


一 些 不 需要 的 、 巨 大 的 文件 或 文件 夹 占 据 了 硬盘 的 空间 ， 这 并 不 少 
见 。 如 果 你 试图 释放 计算 机 上 的 空间 ， 那 么 删除 不 想 要 的 巨大 文件 效果 
最 好 。 但 首先 你 必须 找到 它们 。 


编写 一 个 程序 ， 遍 有 历 一 个 目录 树 ， 碍 找 特别 大 的 文件 或 文件 严 ， 比 
方 说 ， 超 过 100MB 的 文件 (回忆 一 下 ， 要 获得 文件 的 大 小 ， 可 以 使 用 os 
模块 的 os.path.getsize0) 。 将 这 些 文件 的 绝对 路 径 打 印 到 屏幕 上 。 


9.8.3 消除 缺失 的 编号 


编写 一 个 程序 ， 在 一 个 文件 夹 中 ， 找 到 所 有 市 指定 前 级 的 文件 ， 诸 
如 spam001.txt, Spam002.txt 等 ， 并 定位 缺失 的 编号 〈 例 如 存在 
spam001.txt 和 spam003.txt， 但 不 存在 Spam002.txt) 。 让 该 程序 对 所 有 后 
面 的 文件 改名 ， 消 除 缺 失 的 编号 。 


作为 附加 的 挑战 ， 编 写 另 一 个 程序 ， 在 一 些 连 续 编号 的 文件 中 ， 空 
出 一 些 编号 ， 以 便 加 入 新 的 文件 。 

















第 10 章 ”调试 


既然 你 已 学 习 了 足够 的 内 容 ， 可 以 编写 更 复杂 的 程序 ， 可 能 就 会 在 
程序 中 发 现 不 那么 简单 的 缺陷 。 本 章 介 绍 了 一 些 工 具 和 技巧 ， 用 于 寻找 
程序 中 缺陷 的 根源 ， 帮 助 你 更 快 更 容易 地 修复 缺陷 。 


程序 员 之 间 流 传 着 一 个 老 笑 话 : “编码 占 了 编程 工作 量 的 90%， 调 
试 占 了 另外 90%。” 


计算 机 只 会 做 你 告诉 它 做 的 事情 ， 它 不 会 读 异 你 的 心思 ， 做 你 想 要 
它 做 的 事情 。 即 使 专业 的 程序 员 也 一 直 在 制造 缺陷 ， 所 以 如 果 你 的 程序 
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好 在 ， 有 一 些 工 具 和 技巧 可 以 确定 你 的 代码 在 做 什么 ， 以 及 哪儿 出 
了 问题 。 首 先 ， 你 要 奉 看 日 志和 断言 。 这 两 项 功能 可 以 帮助 你 尽早 发 现 
缺陷 。 一 般 来 说 ， 缺 陷 发 现 的 越 早 ， 就 越 容易 修复 。 


其 次 ， 你 要 学 习 如 何 使 用 调试 器 。 调 试 器 是 IDLE 的 一 项 功能 ， 它 
可 以 一 次 执行 一 条 指令 ， 在 代码 运行 时 ， 让 你 有 机 会 检查 变量 的 值 ， 并 
退 踪 程序 运行 时 值 的 变化 。 这 比 程序 全 速 运行 要 慢 得 多 ， 但 可 以 帮助 你 
碍 看 程序 运行 时 其 中 实际 的 值 ， 而 不 是 通过 源 代码 推测 值 可 能 是 什么 。 


10.1 抛 出 异常 


当 Python 试 图 执行 无 效 代码 时 ， 就 会 抛 出 异常 。 在 第 3 章 中 ， 你 已 
看 到 如 何 使 用 try 和 except 语 句 来 处 理 Python 的 异常 ， 这 样 程序 就 可 以 从 
你 预期 的 异常 中 恢复 。 但 你 也 可 以 在 代码 中 抛 出 自己 的 异常 。 抛 出 异常 
ae 于 是 说 : “停止 运行 这 个 函数 中 的 代码 ， 将 程序 执行 转 到 excepti 语 


抛 出 异常 使 用 raise 语 句 。 在 代码 中 ，raise 语 句 包 含 以 下 部 分 : 
e raise 关 键 字 ; 


e 对 Exception 函 数 的 调用 ; 
。 传递 给 Exception 函 数 的 字符 串 ， 包 含有 用 的 出 错 信 息 。 




















例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> raise Exception('This is the error message.') 


Traceback (most recent call last): 
File "", line 1, in 
raise Exception('This is the error message. ') 
Exception: This is the error message. 








如 果 没 有 try 和 except 语 句 黎 兰 抛 出 异常 的 raise 语 句 ， 该 程序 就 会 
并 显示 异常 的 出 错 信息 。 


通常 是 调用 该 函数 的 代码 知道 如 何 处 理 异常 ， 而 不 是 该 函数 本 身 。 
所 以 你 党 和 会 看 到 raise 语 句 在 一 个 函数 中 ，try 和 except 语 句 在 调用 该 函 
数 的 代码 中 。 例 如 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 
保存 为 boxPrint.py: 








def boxPrint(symbol, width, height): 
if len(symbol) != 1: 


© raise Exception('Symbol must be a single character string.') 
if width <= 2 

@ raise Exception('Width must be greater than 2.') 
if height <= 2 

© raise Exception('Height must be greater than 2.') 


print(symbol * width) 
for i in range(height - 2): 

print(symbol + (' ' * (width - 2)) + symbol) 
print(symbol * width) 


for sym, w, h in (('*', 4, 4), ('O', 20, 5), ('x', 1, 3), ('ZZ', 3, 3)): 
try: 
boxPrint(sym, w, h) 
4) except Exception as err: 
© print('An exception happened: ' + str(err)) 


| 


这 里 我 们 定义 了 一 个 boxPrint() 函数 ， 它 接受 一 个 字符 、 一 个 宽度 
和 一 个 高 度 。 它 按照 指定 的 宽度 和 高 度 ， 用 该 字符 创建 了 一 个 小 盒子 的 
图 像 。 这 个 盒子 被 打印 到 屏 侨 上 。 


假定 我 们 希望 该 字符 是 一 个 字符 ， 宽 度 和 高 度 要 大 于 2。 我 们 添加 
了 if 语句 ， 如 果 这 些 条 件 没 有 满足 ， 就 抛 出 异常 。 稍 后 ， 当 我 们 用 不 同 
的 参数 调用 boxPrint() 时 ，try/except 语 句 就 会 处 理 无 效 的 参数 。 


这 个 程序 使 用 了 except 语 句 的 except Exception as err 形 式 介 。 如 果 
boxPrint() 返 回 一 个 Exception 对 象 @O 信 人 @， 这 条 语句 天 会 将 它 保 存在 名 为 
err 的 变量 中 。Exception 对 象 可 以 传递 给 str0， 将 它 转换 为 一 个 字符 串 ， 
得 到 用 户 友好 的 出 错 信息 @@。 运行 boxPrint.py， 输 出 看 起 来 像 这 样 : 


KK K K 


00000000000000000000 
(0) 
(0) 


(0) 
00000000000000000000 
An exception happened: Width must be greater than 2. 
An exception happened: Symbol must be a single character string. 








使 用 try 和 except 语 句 ， 你 可 以 更 优雅 地 处 理 错 误 ， 而 不 是 让 整个 程 
FR TE o 


10.2 取得 反问 跟踪 的 字符 串 


如 果 Python 遇 到 错误 ， 它 就 会 生成 一 些 错误 信息 ， 称 为 “反问 跟 
踪 ?。 反 辐 跟 踪 包 含 了 出 错 消 轧 、 导 致 该 错误 的 代码 行 号 ， 以 及 导致 该 





错误 的 函数 调用 的 序列 。 这 个 序列 称 为 “调用 栈 ”。 


在 IDLE 中 打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 程序 ， 并 保存 
为 error Example.py: 


def spam(): 
bacon() 
def bacon(): 
raise Exception('This is the error message. ') 


spam() 





如 果 运 行 errorExample.py， 输 出 看 起 来 像 这 样 : 


Traceback (most recent call last): 
File "errorExample.py", line 7, in <module> 
spam() 
File "errorExample.py", line 2, in spam 
bacon() 
File "errorExample.py", line 5, in bacon 


raise Exception('This is the error message. ') 
Exception: This is the error message. 








通过 反 同 跟踪 ， 可 以 看 到 该 错误 发 生 在 第 5 行 ， 在 bacon() 函数 中 。 
这 次 特定 的 bacon() 调用 来 自 第 2 行 ， 在 spamg0 函数 中 ， 它 又 在 第 7 行 被 
调用 的 。 在 从 多 个 位 置 调 用 函数 的 程序 中 ， 调 用 栈 就 能 帮助 你 确定 哪 次 
调用 导致 了 错误 。 


只 要 抛 出 的 异常 没有 被 处 理 ，Python 就 会 显示 反 向 跟踪 。 但 你 也 可 
以 调用 traceback.format_exc()， 得 到 它 的 字符 串 形式 。 如 果 你 希望 得 到 
异常 的 反问 跟踪 的 信息 ， 但 也 希望 except 语 句 优 雅 地 处 理 该 异常 ， 这 个 
函数 惑 很 有 用 。 在 调用 该 函 数 之 前 ， 需 要 导入 Python 的 traceback 模 块 。 
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一 个 日 志文 件 ， 并 让 程序 继续 运行 。 稍 后 ， 在 准备 调试 程序 时 ， 可 以 检 
查 该 日 志文 件 。 在 交互 式 环 境 中 输入 以 下 代码 : 





>>> import traceback 


>>> try: 


raise Exception('This is the error message.') 


except: 


errorFile = open('errorInfo.txt', 'w') 


errorFile.write(traceback.format exc()) 


errorFile.close() 


print('The traceback info was written to errorInfo.txt.') 


116 
The traceback info was written to erroriInfo.txt. 





write) 方法 的 返回 值 是 116， 因 为 116 个 字符 被 写 入 到 文件 中 。 反 向 
跟踪 文本 被 写 入 errorInfo.txt。 


Traceback (most recent call last): 
File "<pyshell#28>", line 2, in <module> 
Exception: This is the error message. 





10.3 hs 


“断言 ”是 一 个 心智 正常 的 检查 ， 确 保 代码 没有 做 什么 明显 错误 的 事 
情 。 这 些 心智 正常 的 检查 由 assert 语 句 执 行 。 如 果 检 查 失 败 ， 就 会 抛 出 
异常 。 在 代码 中 ，assert 语 句 包 含 以 下 部 分 : 


e assert 关 键 字 ; 

° 条 件 (《 即 求 值 为 True 或 False 的 表达 式 ) ; 
。 过 号 ; 

。 当 条 件 为 False 时 显示 的 字符 串 。 


例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> podBayDoorStatus = 'open' 


>>> assert podBayDoorStatus == ‘open’, "The pod bay doors need to be "open" 


>>> podBayDoorStatus = ‘I\'m sorry, Dave. I\'m afraid I can't do that. 


>>> assert podBayDoorStatus == ‘open’, "The pod bay doors need to be "open" 


Traceback (most recent call last): 
File "< pyshell#10>", line 1, in < module> 
assert podBayDoorStatus == 'open', ‘The pod bay doors need to be "open 
AssertionError: The pod bay doors need to be "open". 





这 里 将 podBayDoorStatus 设 置 为 'open'"， 所 以 从 此 以 后 ， 我 们 充分 期 








望 这 个 变量 的 值 是 '"open'。 在 使 用 这 个 变量 的 程序 中 ， 基 于 这 个 值 是 
open 的 假定 ， 我 们 可 能 写 下 了 大 量 的 代码 ， 即 这 些 代 码 依赖 于 它 是 
open， 才 能 按照 期 望 工作 。 所 以 添加 了 一 个 断言 ， 确 保 假定 
podBayDoorStatus 是 'open' 是 对 的 。 这 里 ， 我 们 加 入 了 信息 'The pod bay 
doors need to be "open".， 这 样 如 果断 言 失败 ， 就 很 容易 看 到 哪里 出 了 


He 
Ho 





稍 后 ， 假 如 我 们 犯 了 一 个 明显 的 错误 ， 把 另外 的 值 赋 给 
podBayDoorStatus， 但 在 很 多 行 代 码 中 ， 我 们 并 没有 意识 到 这 一 点 。 这 











个 断言 会 抓 住 这 个 错误 ， 清 楚 地 告诉 我 们 出 了 什么 错 。 


在 日 常 身 语 中 ，assert 语 句 是 说 :“ 我 断言 这 个 条 件 为 真 ， 如 果 不 为 
真 ， 程 序 中 什么 地 方 就 有 一 个 缺陷 。” 不 像 异 常 ， 代 码 不 应 该 用 try 和 
except 处 理 assert 语 句 。 如 果 assert 失 败 ， 程 序 就 应 该 骨 尝 。 通 过 这 样 的 快 
速 失 败 ， 产 生 缺 陷 和 你 第 一 次 注意 到 该 缺陷 之 间 的 时 间 惑 缩短 了 。 这 将 
减少 为 了 寻找 导致 该 缺陷 的 代码 ， 而 需要 检查 的 代码 量 。 


断言 针对 的 是 程序 员 的 错误 ， 而 不 是 用 户 的 错误 。 对 于 那些 可 以 恢 
复 的 错误 〈 诸 如 文件 没有 找到 ， 或 用 户 输入 了 无 效 的 数据 ) ， 请 抛 出 异 
常 ， 而 不 是 用 assert 语 句 检测 它 。 


10.3.1 在 交通 人 杂 模 拟 中 使 用 断言 


假定 你 在 编写 一 个 交通 信号 灯 的 模拟 程序 。 人 代表 路 口 信号 灯 的 数据 
结构 是 一 个 字典 ， 以 ms' 和 ew 为 键 ， 分 别 表示 南北 同和 东西 同 的 信号 
灯 。 这 些 键 的 值 可 以 是 'green', 'yellow' 或 red 之 一 。 代 人 码 看 起 来 可 能 
像 这 样 











market_2nd = {'ns': 'green', 'ew': 'red'} 
mission_16th = {'ns': 'red', ‘ew': 'green'} 





这 两 个 变量 将 针对 Market 街 和 第 2 街路 口 ， 以 及 Mission 街 和 第 16 街 
路 口 。 作 为 项 目 局 动 ， 你 希望 编写 一 个 switchLights0 函数 ， 它 接受 一 个 
路 口 字典 作为 参数 ， 并 切换 红绿灯 。 


开始 你 可 能 认为 ，switchLights() 只 要 将 每 一 种 灯 按 顺序 切换 到 下 一 
种 颜色 : 'green' 值 应 该 切换 到 yellow, ‘yellow 应 该 切换 到 'red'，'red' 
应 该 切换 到 'green'。 实 现 这 个 思想 的 代码 看 起 来 像 这 样 : 





def switchLights(stoplight): 
for key in stoplight.keys(): 


if stoplight[key] == 'green': 
stoplight[key] = ‘'yellow' 
elif stoplight[key] == 'yellow': 


stoplight[key] = 'red' 


elif stoplight[key] == ‘red’: 
stoplight[key] = 'green' 


switchLights(market_2nd) 








你 可 能 已 经 发 现 了 这 段 代码 的 问题 ， 但 假设 你 编写 了 剩 下 的 模拟 代 





码 ， 有 几 千 行 ， 但 没有 注意 到 这 个 问题 。 当 最 后 运行 时 ， 程 序 没 有 骨 
涡 ， 但 虚拟 的 汽车 撞车 了 ! 
因为 你 已 经 编写 了 剩 下 的 程序 ， 所 以 不 知道 缺陷 在 哪里 。 也 许 在 模 


拟 汽车 的 代码 中 ， 或 者 在 模拟 司机 的 代码 中 。 可 能 需要 花 几 个 小 时 追踪 
缺陷 ， 才 能 找到 switchLights() 函数 。 


但 如 果 在 编写 switchLights() 时 ， 你 添加 了 断言 ， 确 保 至 少 一 个 交通 
灯 是 红色 ， 可 能 在 函数 的 底部 添加 这 样 的 代码 : 








assert 'red' in stoplight.values(), ‘Neither light is red! ' + str(stopligh 





Aix Twa, REPS i, FFE POPE h fafa E: 


Traceback (most recent call last): 
File "carSim.py", line 14, in <module> 
switchLights(market_2nd) 
File "carSim.py", line 13, in switchLights 
assert 'red' in stoplight.values(), ‘Neither light is red! ' + str(s 


@ AssertionError: Neither light is red! {'ns': ‘yellow', 'ew': 'green'} 





这 里 重要 的 一 行 是 AssertionError@。 虽 然 程 序 骨 淡 并 非 如 你 所 愿 ， 
但 它 马 上 指出 了 心智 正 背 检查 失败 : 两 个 方 癌 都 没有 红 灯 ， 这 意味 着 两 
个 方 回 的 车 都 可 以 走 。 在 程序 执行 中 尽早 快速 失败 ， 可 以 省 去 将 来 大 量 








的 调试 工作 。 
10.3.2 禁用 断言 


在 运行 Python 时 传 入 -0 选项， 可 以 共用 断言 。 如 打 你 已 完成 了 程序 
的 编写 和 测试 ， 不 希望 执行 心智 正常 检测 ， 从 而 减 慢 程 序 的 速度 ， 这 样 
就 很 好 《尽管 大 多 数 断 言语 句 所 花 的 时 间 ， 不 会 让 你 党 察 到 速度 的 差 
异 ) 。 断 言 是 针对 开发 的 ， 不 是 针对 最 终 产品 。 当 你 将 程序 交 给 其 他 人 
运行 时 ， 它 应 该 没有 缺陷 ， 不 需要 进行 心智 正常 检查 。 如 何 用 -O 选 项 局 
动 也 许 并 不 汐 狂 的 程序 ， 详 细 内 容 请 参考 附录 B。 

















10.4 日志 


如 果 你 曾经 在 代码 中 加 入 print0 语句 ， 在 程序 运行 时 输出 某 些 变量 
的 值 ， 你 就 使 用 了 记 日 志 的 方式 来 调试 代码 。 记 日 志 是 一 种 很 好 的 方 
式 ， 可 以 理解 程序 中 发 生 的 事 ， 以 及 事情 发 生 的 顺序 。Python 的 logging 
模块 使 得 你 很 容易 创建 自 定义 的 消息 记录 。 这 些 日 志 消 息 将 描述 程序 执 
行 何 时 到 达 日 志 函 数 调用 ， 并 列 出 你 指定 的 任何 变量 当时 的 值 。 另 一 方 
面 ， 缺 失 日 志 信 息 表 明 有 一 部 分 代码 被 跳 过 ， 从 未 执行 。 


10.4.1 使 用 日 志 模 块 


要 启用 logging 模 块 ， 在 程序 运行 时 将 日 志 信息 显示 在 屏幕 上 ， 请 将 
下 面 的 代码 复制 到 程序 顶部 〈 但 在 Python 的 放行 之 下 ) : 





























import logging 
logging. basicConfig(level=logging.DEBUG, format=" %(asctime)s - %(levelname 
%(message)s' ) 





你 不 需要 过 于 担心 它 的 工作 原理 ， 但 基本 上 ， 当 Python 记录 一 个 
事件 的 日 志 时 ， 它 会 创建 一 个 LogRecord 对 象 ， 保 存 关 于 该 事件 的 信 
居 。logging 模 块 的 函数 让 你 指定 想 看 到 的 这 个 LogRecord 对 象 的 细节 ， 
以 及 希望 的 细 市 展示 方式 。 





假如 你 编号 了 一 个 函数 ， 计 算 一 个 数 的 阶乘 。 在 数学 上 ，4 的 阶乘 
是 1x2x3x4， 即 24。7 的 阶乘 是 1x2x3x4x5x6x7， 即 5040。 打 
开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 。 其 中 有 一 个 缺陷 ， 但 你 也 
会 输入 一 些 日 志 信 息 ， 玫 助 你 弄 清楚 哪里 出 了 问题 。 将 该 程序 保存 为 
factorialLog.py。 





import logging 

logging.basicConfig(level=logging.DEBUG, format=" %(asctime)s - %(levelname 
- %(message)s') 

logging.debug('Start of program') 


def factorial(n): 
logging.debug('Start of factorial(%s%%)' % (n)) 
total = 1 
for i in range(n + 1): 
total *= i 
logging.debug('i is ' + str(i) + ', total is ' + str(total)) 
logging.debug('End of factorial(%s%%)' % (n)) 
return total 


print(factorial(5)) 
logging.debug('End of program’ ) 





这 里 ， 我 们 在 想 打 印 日 志 信息 时 ， 使 用 logging.debugO0 函数 。 这 个 
debug() 函数 将 调用 basicConfig()， 打 印 一 行 信息 。 这 行 信息 的 格式 是 我 
们 在 basicConfig() 函 数 中 指定 的 ， 并 且 包 括 我 们 传递 给 debug? 的 消 
o print (factorial (5) ) 调用 是 原来 程序 的 一 部 分 ， 所 以 就 算 禁 用 日 
志 人 信息， 结果 仍 会 显示 。 


这 个 程序 的 输出 就 像 这 样 : 











2015-05-23 16:20:12,664 - DEBUG - Start of program 
2015-05-23 16:20:12,664 - DEBUG - Start of factorial(5) 
2015-05-23 16:20:12,665 - DEBUG - i is 9, total is 6 


2015-05-23 16:20:12,668 - DEBUG - i is 1, total is 6 
2015-05-23 16:20:12,670 - DEBUG - i is 2, total is 6 
2015-05-23 16:20:12,673 - DEBUG - i is 3, total is 6 
2015-05-23 16:20:12,675 - DEBUG - i is 4, total is 6 
2015-05-23 16:20:12,678 - DEBUG - i is 5, total is 6 


2015-05-23 16:20:12,680 - DEBUG - End of factorial(5) 
0 
2015-05-23 16:20:12,684 - DEBUG - End of program 








factorial() 函数 返回 0 作为 5 的 阶乘 ， 这 是 不 对 的 。for 循 环 应 该 用 从 1 
到 5 的 数 ， 乘 以 total 的 值 。 但 logging.debug0) 显示 的 日 志 信息 表明 ，i 变 
量 从 0 开始 ， 而 不 是 1。 因 为 0 乘 任何 数 都 是 0(， 所 以 接 下 来 的 进 代 中 ， 
total 的 值 都 是 错 的 。 日 志 消 息 提 供 了 可 以 奶 踪 的 痕迹 ， 帮 助 你 乔 清楚 何 
时 事情 开始 不 对 。 


将 代码 行 foriin range Cn+1) : 改 为 foriin range (1, n+1): ， 
再 次 运行 程序 。 输 出 看 起 来 像 这 样 : 














2015-05-23 :13:40,650 Start of program 
2015-05-23 :13:40,651 Start of factorial(5) 
2015-05-23 :13:40,651 i is 1, total is 1 
2015-05-23 :13:40,654 i is 2, total is 2 
2015-05-23 :13:40,656 i 3, total is 6 
2015-05-23 :13:40,659 i is 4, total is 24 
2015-05-23 :13:40,661 i 5, total is 120 
2015-05-23 :13:40,661 E 

120 

2015-05-23 :13:40,666 End of program 


nd of factorial(5) 





factorial (5) 调用 正确 地 返回 120。 日 志 消 息 表明 循环 内 发 生 了 什 
A, MARIA ST REG 


你 可 以 看 到 ，logging.debug() 调用 不 仅 打印 出 了 传递 给 它 的 字符 
串 ， 而 且 包含 一 个 时 间 惟 和 单词 DEBUG。 


10.4.2 不 要 用 print() 调 试 


输入 import logging 和 logging.basicConfig (level=logging. DEBUG, 
format='% (asctime)s - %(levelname)s - %(message)s') 有 一 点 不 方便 。 你 





可 能 想 使 用 print() 调用 代替 ， 但 不 要 屈服 于 这 种 诱惑 ! 在 调试 完成 后 ， 

你 需要 论 很 多 时 间 ， 从 代码 中 清除 每 条 日 志 消 恩 的 print( 调用 。 你 甚至 
有 可 能 不 小 心 删除 一 些 print() 调用 ， 而 它们 不 是 用 来 产生 日 志 消 息 的 。 

日 志 消 息 的 好 处 在 于 ， 你 可 以 随心 所 欲 地 在 程序 中 想 加 多 少 就 加 多 少 ， 

稍 后 只 要 加 入 一 次 logging.disable (logging.CRITICAL ) 调用 ， 就 可 以 禁 
止 日 志 。 不 像 print()，logging 模 块 使 得 显示 和 隐藏 日 志 信 息 之 间 的 切换 
变 得 很 容易 。 


日 志 消 奶 是 给 程序 员 的 ， 不 是 给 用 户 的。 用 户 不 会 因为 你 便于 调 
试 ， 而 想 看 到 的 字典 值 的 内 容 。 请 将 日 志 信 息 用 于 类 似 这 样 的 目的 。 对 
于 用 户 和 希望 看 到 的 消 轧 ， 例 如 “文件 未 找到 ?或 者 “无 效 的 输入 ， 请 输入 
一 个 数字 ”， 应 该 使 用 printO) 调用 。 我 们 不 而 望 蔡 用 日 志 消 息 之 后 ， 让 
用 户 看 不 到 有 用 的 信息 。 


10.4.3 日 志 级 别 

“日 志 级 别 * 提 供 了 一 种 方式 ， 按 重要 性 对 日 志 消 息 进行 分 类 。5 个 
日 志 级 别 如 表 10-1 所 示 ， 从 最 不 重要 到 最 重要 。 利 用 不 同 的 日 志 函 数 ， 
消息 可 以 按 某 个 级 别 记 入 日 志 。 


表 10-1 Python 中 的 日 志 级 别 
























































最 低级 别 。 小 细节 。 通 常 只 有 在 诊断 间 题 时 ， 你 
ogging debug0 | RAI, LEAMA. SLA SATE MTL f 





























e ie a 的 信息 ， 或 确认 一 切 工 作 正 


rsa ons 它 不 会 阻止 程序 的 工作 ， 但 将 
区 < 
ron fares [sir ee 


最 高 级 别 。 用 于 表示 致命 的 错误 ， 它 导致 或 将 要 导致 

















CRITICAL |logging.critical() | 程序 完全 停止 工作 


日 志 消 息 作 为 一 个 字符 串 ， 传 递 给 这 些 函 数 。 日 志 级 别 是 一 种 建 
议 。 归 根 到 底 ， 还 是 由 你 来 决定 日 志 消 奶 属 于 哪 一 种 类 型 。 在 交互 式 环 
境 中 输入 以 下 代码 : 








>>> import logging 


>>> logging.basicConfig(level=logging.DEBUG, format= 


%(asctime)s - 


%(levelname)s - %(message)s') 


>>> logging.debug('Some debugging details.') 


2015-05-18 19:04:26,901 - DEBUG - Some debugging details. 
>>> logging.info('The logging module is working." ) 


2015-05-18 19:04:35,569 - INFO - The logging module is working. 
>>> logging.warning('An error message is about to be logged. ') 


2015-05-18 19:04:56,843 - WARNING - An error message is about to be logged. 
>>> logging.error('An error has occurred." ) 


2015-05-18 19:05:07,737 - ERROR - An error has occurred. 
>>> logging.critical('The program is unable to recover!') 


2015-05-18 19:05:45,794 - CRITICAL - The program is unable to recover! 





日 志 级 别 的 好 处 在 于 ， 你 可 以 改变 想 看 到 的 日 志 消 息 的 优先 级 。 癌 
basicConfig() 函 数 传 入 logging.DEBUG 作 为 level 关 键 字 参数 ， 这 将 显示 所 
有 日 志 级 别 的 消息 《DEBUG 是 最 低 的 级 别 ) 。 但 在 开发 了 更 多 的 程序 
后 ， 你 可 能 只 对 错误 感 兴趣 。 在 这 种 情况 下 ， 可 以 将 basicConfig() 的 
level 参 数 设置 为 logging.ERROR， 这 将 只 显示 ERROR 和 CRITICAL 消 
息 ， 跳 过 DEBUG、INFO 和 WARNING 消 息 。 


10.4.4 禁用 日 志 


在 调试 完 程序 后 ， 你 可 能 不 希望 所 有 这 些 日 志 消 息 出 现在 屏幕 上 。 
logging. disable() 函数 禁用 了 这 些 消息 ， 这 样 就 不 必 进 入 到 程序 中 ， 手 
工 删 除 所 有 的 日 志 调 用 。 只 要 向 logging.disable() 传 入 一 个 日 志 级 别 ， 它 
就 会 禁止 该 级 别 和 更 低级 别 的 所 有 日 志 消 息 。 所 以 ， 如 果 想 要 禁用 所 有 
日 志 ， 只 要 在 程序 中 添加 logging. disable (logging.CRITICAL) 。 例 
如 ， 在 交互 式 环境 中 输入 以 下 代码 : 





>>> import logging 


>>> logging.basicConfig(level=logging. INFO, format= 


%(asctime)s - 


%(levelname)s - %(message)s') 


>>> logging.critical('Critical error! Critical error!') 


2015-05-22 11:10:48,054 - CRITICAL - Critical error! Critical error! 
>>> logging.disable(logging.CRITICAL) 


>>> logging.critical('Critical error! Critical error!') 


>>> logging.error('Error! Error!') 





Al logging. disable) 将 禁用 它 之 后 的 所 有 消息 ， 你 可 能 希望 将 它 添 
加 到 程序 中 接近 import logging 代 码 行 的 位 置 。 这 样 束 很 容易 找到 它 ， 根 


所 需要 注释 掉 它 ， 或 取消 注释 ， 从 而 局 用 或 禁用 日 志 消 居 。 


10.4.5 将 日 志 记 录 到 文件 


除了 将 日 志 消 息 显 示 在 屏幕 上 ， 还 可 以 将 它们 写 入 文本 文件 。 
logging.basic Config() È 函数 接受 flename 关 键 字 参数 ， 像 这 样 : 











import logging 
logging. basicConfig(filename='myProgramLog.txt' 


， level=logging.DEBUG, format=" 
%(asctime)s - %(levelname)s - %(message)s') 








日 志 信 息 将 被 保存 到 myProgramLog.txt 文 件 中 。 虽 然 日 志 ae 
用 ， fa 它们 可 能 塞 满 屏幕 让 你 很 难 读 到 程序 的 输出 。 将 日 志 信息 
到 文件 ， 让 屏幕 保持 干净 ， 又 能 保存 信息 ， 这 样 在 运行 程序 后 ， | 
item 可 以 用 任何 文件 编辑 器 打开 这 个 文本 文件 ， 诸 如 Notepad 
BY TextEdit. 





10.5 IDLE 的 调试 器 


“调试 器 "是 IDLE 的 一 项 功能 ， 让 你 每 次 执行 一 行程 序 。 调 试 器 将 运 

一 行 代码 ， 然后 等 待 你 告诉 它 继续 。 像 这 样 让 程序 运行 “在 调试 器 之 

， 你 可 以 随便 花 多 少时 间 ， 检查 程序 运行 时 任意 一 个 时 刻 的 变量 的 
E. 对 于 追踪 缺陷 ， 这 是 一 个 很 有 价值 的 工具 。 


要 局 用 IDLE 的 调试 占 ， 就 在 交互 式 环境 窗口 中 扣 击 
DebugDebugger。 这 将 打开 调试 控制 (Debug Control) 窗口 ， 如 图 10-1 
所 示 。 

















M Stack I Source 


M Locals 厂 Globals 











Locals 











图 10-1 调试 控制 窗口 


当 调 试 控 制 窗 口 出 现 后 ， 勾 选 全 部 4 个 复 选 框 : Stack、Locals、 
Source 和 Globals。 这 样 窗 口 将 显示 全 部 的 调试 信息 。 调 试 控制 窗口 显示 
时 ， 只 要 你 从 文件 编辑 器 运行 程序 ， 调 试 器 就 会 在 第 一 条 指令 之 前 暂停 
执行 ， 并 显示 下 面 的 信息 : 


o 将 要 执行 的 代码 行 ; 
。 所 有 局 部 变量 及 其 值 的 列表 ; 
。 所 有 全 局 变量 及 其 值 的 列表 。 


你 会 注意 到 ， 在 全 局 变量 列表 中 ， 有 一 些 变 量 你 没有 定义 ， 诸 如 __ 
builtins 、_ doc ” 、_ fle”， 等 等 。 它 们 是 Python 在 运行 程序 时 ， 
目 动 设 置 的 变量 。 这 些 变 量 的 合 义 超出 了 本 书 的 范围 ， 你 可 以 暂时 忽略 


‘ell. 


程序 将 保持 和 暂停， 直到 你 按 下 调试 控制 窗口 的 5 个 按钮 中 的 一 个 : 
Go、Step、Over、Out 或 Quit。 





10.5.1 Go 


点 击 Go 按 钮 将 导致 程序 正 稍 执行 至 终止 ， 或 到 达 一 个 “ 断 点 >”〈 断 点 
在 本 章 稍 后 介绍 ) 。 如 果 你 完成 了 调试 ， 希 望 程序 正常 继续 ， 就 点 击 
Go 按钮 。 


10.5.2 Step 


扩 击 Step 控 钮 将 导致 调试 器 执行 下 一 行 代 码 ， 然 后 再 次 暂停 。 如 果 
变量 的 值 发 生 了 变化 ， 调 试 控制 窗口 的 全 局 变量 和 局 部 变量 列表 就 会 更 
新 。 如 果 下 一 行 代 码 是 一 个 函数 调用 ， 调 试 器 就 会 * 步 入 ”那个 函数 ， 跳 
到 该 函数 的 第 一 行 代码 。 














10.5.3 Over 


点 击 Over 按 扭 将 执行 下 一 行 代码 ， 与 Step 按 钮 类 似 。 但 是 ， 如 果 下 
一 行 代码 是 冰 数 调用 ，Over 按 钮 将 “ 跨 过 ”该 函数 的 代码 。 该 函数 的 代码 
将 以 全 速 执行 ， 调 试 器 将 在 该 函数 返回 后 暂停 。 例 如， 如 果 下 一 行 代码 
print) 调用 ， 你 实际 上 不 关心 内 建 print() 函数 中 的 代码 ， 只 和 希望 传递 
给 它 的 字符 串 打印 在 屏幕 上 。 出 于 这 个 原因 ， 使 用 Over 按钮 比 使 用 Step 
按钮 更 常见 。 





10.5.4 Out 


扩 击 Out 按 钮 将 导致 调试 器 全 速 执 行 代码 行 ， 直 到 它 从 当前 函数 返 
回 。 如 果 你 用 Step 按 钮 进入 了 一 个 函数 ， 现 在 只 想 继续 执行 指令 ， 直 到 
该 图 数 返 回 ， 那 就 点 击 Out 按钮 ， 从 当前 的 函数 调用 “走出 来 ”。 





10.5.5 Quit 

如 果 你 希望 完全 停止 调试 ， 不 必 继 续 执 行 剩 下 的 程序 ， 就 点 击 Quit 
按钮 。Qnuite 按 钮 将 马上 终止 该 程序 。 如 果 你 希望 再 次 正常 运行 你 的 程 
序 ， 就 再 次 选择 DebugDebugger， 禁 用 调试 器 。 
10.5.6 调试 一 个 数字 相 加 的 程序 


打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 : 





print('Enter the first number to add:') 
first = input() 
print('Enter the second number to add:') 
second = input() 
print('Enter the third number to add:') 


third = input() 
print('The sum is ' + first + second + third) 





将 它 保存 为 buggyAddingProgram.py， 不 启用 调试 器 ， 第 一 次 运行 
它 。 程 序 的 输出 像 这 样 : 


Enter the first number to add: 
5 


Enter the second number to add: 
3 


Enter the third number to add: 
42 


The sum is 5342 





这 个 程序 没有 册 沉 ,但 求 和 显然 是 错 的 。 让 我 们 局 用 调试 控制 竺 
口 ， 再 次 运行 它 ， 这 次 在 调试 右 控 制 之 下 。 


当 你 按 下 F5 或 选择 RunRun Module (启用 DebugDebugger， 选 中 调 
试 控制 窗口 的 所 有 4 个 复 选 框 》， 程 序 启动 时 将 暂停 在 第 1 行 。 调 试 器 总 
是 会 暂停 在 它 将 要 执行 的 代码 行 上 。 调 试 控制 窗口 看 起 来 如 图 10-2 所 
示 。 





M Stack M Source 
I¥ locals M Globals 
buggyAddingProgram.py:l: <mcdule>0 





‘hdb' rund, line 431: exec(cmd, globals, locals) 
> '_main_'<module>0, line 1: print( Enter the first number to edd:) 





locals 








Globals 
_ builtins _ <module ‘builtins’ (built-in) > 
_doc None 
_file_ ‘C\\\\buggyAddingProgram.py’ 
_loader_ <class '_frozen_importlib.BuiltinImporter'> 
_name ‘_main_ 


__package_ None 





None 


图 10-2 程序 第 一 次 在 调试 器 下 运行 时 的 调试 控制 窗口 


点 击 一 次 Over 按钮 ， 执 行 第 一 个 print(0) 调用 。 这 里 应 该 使 用 Over 按 
钮 ， 而 不 是 Step， 因 为 你 不 希望 进入 到 printO 函数 的 代码 中 。 调 试 控 制 
窗口 将 更 新 到 第 2 行 ， 文 件 编辑 器 窗口 的 第 2 行将 高 亮 显 示 ， 如 图 10-3 所 


示 。 这 告诉 你 程序 当前 执行 到 哪里 。 





print ('Enter the first number to add:') 


print ('Enter the second number to add:') 


print ('Enter the third number to add:') 
third = input () 
print('The sum is ' + first + second + third) 
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M Stack M Source 
M Locals  Globals 
| buggyAddingProgram.py:2: <module> 0) 


‘pdb'.runQ), line 431: exec(cmd, globals, locals) 
> '_main_'.<module>0), line 2: first = input) 








Locals 








Globals 





_ builtins _ <module ‘builtins’ (built-in) > 

None 

‘C\\\\buggyAddingProgram.py' 
_loader_ <class '_frozen_importlib.Builtinimporer > 
_name_ ‘_main_' 
__package_ None 
__spec_ None 





图 10-3 点 击 Over 按钮 后 的 调试 控制 窗口 


再 次 点 击 Over 按 钮 ， 执 行 input() 函数 调用 ， 当 IDLE 等 竺 你 在 交互 
式 环境 窗口 中 为 input() 调用 输入 内 容 时 ， 调 试 控 制 窗口 中 的 按钮 将 被 禁 
用 。 输 入 5 并 按 回 车 。 调 试 控制 窗口 按钮 将 重新 局 用 。 


继续 点 击 Over 按 钮 ， 输 入 3 和 42 作 为 接 下 来 的 两 个 数 ， 直 到 调试 器 
位 于 第 7 行 ， 程 序 中 最 后 的 print( 调用 。 调 试 控制 窗口 应 该 如 图 10-4 所 
示 。 可 以 看 到 ， 在 全 局 变量 的 部 分 ， 第 一 个 、 第 二 个 和 第 三 个 变量 设置 
为 字符 串 值 ， 而 不 是 整 型 值 。 当 最 后 一 行 执行 时 ， 这 些 字符 串 连 接 起 








来 ， 而 不 是 加 起 来 ， 导 致 了 这 个 缺陷 。 


用 调试 需 单 步 执行 程序 很 有 用 ， 但 也 可 能 很 慢 。 你 常常 希望 程序 正 
Ee 直到 筷 到 达 特 定 的 代码 行 。 你 可 以 使 用 断 点 ， 让 调试 右 做 到 这 














10.5.7 Ar et 


“ 断 点 > 可 以 设置 在 特定 的 代码 行 上 ， 当 程序 执行 到 达 该 行 时 ， 它 迫 
使 调试 器 暂停 。 在 一 个 新 的 文件 编辑 器 窗口 中 ， 输 入 以 下 程序 ， 它 模拟 
投掷 1000 次 硬币 。 将 它 保存 为 coinFlip.py。 


Stack V Source 
Locals M Globals 
bugayAddingProgram.py:7: <module>() 


‘pdb .runQ), line 431: exec(cmd, globals, locals) 
>" _main_'.<module>(, line 7: print(The sum is + first + second + third) 








Globals 





_builtins__  <module ‘builtins’ (built-in) > 

Ore None 

_file_ ‘CA\\\buggyAddingProgram.py’ 
loader <class '_frozen_importlib.8uiltinimporter'> 
_name ‘_main_' 

__package_ None 

_spec_ None 

first 

second 

third 





图 10-4 在 最 后 一 行 的 调试 控制 窗口 。 这 些 变量 被 设置 为 字符 串 ， 导 致 了 这 个 缺陷 





import random 
heads = 6 
for i in range(1, 1001): 
© if random.randint(@, 1) == 1: 
heads = heads + 1 
if i == 500: 


@ print('Halfway done! ') 
print('Heads came up ' + str(heads) + ' times.') 





在 半数 时 间 里 ，random.randint (0, 1) 调用 各 将 返回 0， 在 另外 半 
数 时 间 将 返回 1。 这 可 以 用 来 模拟 50/50 的 硬币 投掷 ， 其 中 1 代表 正面 。 
当 不 用 调试 器 运行 该 程序 时 ， 它 很 快 输出 下 面 的 内 容 : 


Halfway done! 
Heads came up 490 times. 





如 果 局 用 调试 器 运行 这 个 程序 ， 就 必须 点 击 几 王 次 Over 按钮 ， 程 序 
才能 结束 。 如 果 你 对 程序 执行 到 一 半 时 heads 的 值 感 兴趣 ， 等 1000 次 便 
币 投掷 完 500 次 ， 可 以 在 代码 行 print CHalfway done!) 人 上 设置 断 点 。 
要 设置 断 点 ， 在 文件 编辑 器 中 该 行 代 码 上 点 击 右键 ， 并 选择 Set 
Breakpoint， 如 图 10-5 所 示 。 


__@, Python 3.4.0: coinToss.py - C:/coinToss.py 
| File Edit Format Run Options Windows Help 
; t random 
heads = C 
- i in range(1, 1001): 
F random.randint(0, 1) == 
heads = heads + 1 
f 1 = 500: 
print ("Halfway c ne 1") 
print ("Heads came up ' + £ (Cut 





Cony 


Paste 





Set Breakpoint ， 
Clear Breakpoint 





图 10-5 设置 断 点 


你 不 会 在 站 语句 上 设置 断 点 ， 因 为 让 语句 会 在 循环 的 每 次 达 代 中 都 
执行 。 通 过 在 让 语 句 内 的 代码 上 设置 断 点 ， 调 试 器 束 会 只 在 执行 进入 if 
语句 时 才 中 断 。 


带 有 断 点 的 代码 行 会 在 文件 编辑 器 中 以 黄色 高 亮 显 示 。 如 果 在 调试 
器 下 运行 该 程序 ， 开 始 它 会 暂停 在 第 一 行 ， 像 平时 一 样 。 但 如 果 点 击 
Go， 程 序 将 全 速 运 行 ， 直 到 设置 了 断 点 的 代码 行 。 然 后 可 以 点 击 Go、 
Over, Step#kOut, IER AKA. 


QR 7 EAR, TEC eas PAT TS EAE, JPME 
单 中 选择 Clear Breakpoint。 黄 色 高 亮 消失 ， 以 后 调试 器 将 不 会 在 该 行 代 
码 上 中 断 。 








10.6 小 结 


盯 言 、 异 常 、 日 志和 调试 器 ， 都 是 在 程序 中 发 现 和 预防 缺陷 的 有 用 
工具 。 用 Python 语句 实现 的 断言 ， 是 实现 心智 正常 检查 的 好 方式 。 如 果 
必要 的 条 件 没 有 保持 为 True， 它 将 义 早 给 出 警告 。 断 言 所 针对 的 错误 ， 








程序 不 应 该 答 试 恢复 的 ， 而 是 应 该 快速 失败 。 人 否则 ， 你 应 该 抛 出 腊 


ai a 


异常 可 以 由 try 和 except 语 句 捕 捉 和 人 处理。logging 模 块 是 一 种 很 好 的 
方式 ， 可 以 在 运行 时 查看 代码 的 内 部 ， 它 比 使 用 print() 函数 要 方便 得 
多 ， 因 为 它 有 不 同 的 日 志 级 别 ， 并 能 将 日 志 写 入 文本 文件 。 

调试 器 让 你 每 次 单 步 执行 一 行 代 码 。 或 者 ， 可 以 用 正常 速度 运行 程 
序 ， 并 让 调试 器 暂停 在 设置 了 汤 点 的 代码 行 上 。 利 用 调试 器 ， 你 可 以 看 
到 程序 在 运行 期 间 ， 任 何 时 候 所 有 变量 的 值 。 


这 些 调 试 工具 和 技术 将 帮助 你 编写 正确 工作 的 程序 。 不 小 心 在 代码 
中 引入 缺陷 ， 这 是 不 可 避免 的 ， 不 论 你 有 多 少年 的 编码 经 验 。 

















10.7 习题 


1. 写 一 条 assert 语句 ， 如 果 变 量 spam 是 一 个 小 于 10 AR% W 
触发 AssertionError。 


2. 编写 一 条 assert 语 句 ， 如 果 eggs 和 bacon 包 含 的 字符 串 彼 此 相同 ， 
而 且 不 论 大 小 写 如 何 ， 就 触发 AssertionError (也 就 是 说 ，'hello' 和 'hello' 
被 认为 相同 ，'goodbye' 和 'GOODbye' 也 被 认为 相同 ) 。 

3. 编写 一 条 assert 语 句 ， 总 是 触发 AssertionError。 

4. 为 了 能 调用 logging.debug()， 程 序 中 必须 加 入 哪 两 行 代码 ? 


5. 为 了 让 logging.debug0 将 日 志 消 息 发 送 到 名 为 programLog.txt 的 
文件 中 ， 程 序 必须 加 入 哪 两 行 代 码 ? 


6. 5 个 日 志 级 别 是 什么 ? 

7. 你 可 以 加 入 哪 一 行 代码 ， 蔡 用 程序 中 所 有 的 日 志 消 息 ? 

8. 显示 同样 的 消息 ， 为 什么 使 用 日 志 消 息 比 使 用 printO 要 好 ? 
9. 调试 控制 窗口 中 的 Step、Over 和 Out 按钮 有 什么 区 别 ? 











10. 在 点 击 调试 控制 窗口 中 的 Go 按钮 后 ， 调 试 器 何 时 会 停 下 来 ? 
11. 什么 是 断 点 ? 


12. 在 IDLE 中 ， 如 何在 一 行 代码 上 设置 断 点 ? 





10.8 实践 项 目 
作为 实践 ， 编 程 完成 下 面 的 任务 。 
调试 硬币 抛掷 
下 面 程序 的 意图 是 一 个 简单 的 硬币 抛掷 猜测 游戏 。 玩 家 有 两 次 猜测 


机 会 《这 是 一 个 简单 的 游戏 ) 。 但 是 ， 程 序 中 有 一 些 缺 陷 。 让 程序 运行 
几 次 ， 找 出 缺陷 ， 使 该 程序 能 正确 运行 。 














import random 
guess = '' 
while guess not in ('heads', ‘tails'): 
print('Guess the coin toss! Enter heads or tails:') 
guess = input() 
toss = random.randint(@, 1) # © is tails, 1 is heads 
if toss == guess: 
print('You got it!') 
else: 
print('Nope! Guess again!') 


guesss = input() 
if toss == guess: 
print('You got it!') 
else: 
print('Nope. You are really bad at this game.') 





es 11% 从 Web 抓 取信 息 J 


少数 可 怕 的 时 候 ， 我 没有 Wi-Fi。 这 时 才 意 识 到 ， 我 在 计算 机 上 所 
做 的 事 ， 有 多 少 实际 上 是 在 因特网 上 做 的 事 。 完 全 出 于 习惯 ， 我 会 发 现 
自己 答 试 收 邮 件 、 阅 读 朋 友 的 推 和 项， 或 回答 问题 : “在 Kurtwood Smith 演 
出 1987 年 的 机 械 战 敬之 前 ， 兽 经 演 过 主角 吗 ? ” 

因为 计算 机 上 如 此 多 的 工作 都 与 因特网 有 关 ， 上 所 以 如 果 程 序 能 上 网 
就 太 好 了 。“Web 抓 取 ” 是 一 个 术语 ， 即 利用 程序 下 载 并 处 理 来 自 Web 的 
内 容 。 例 如 ，Google 运 行 了 许多 web 抓 取 程 序 ， 对 网 页 进行 索引 ， 实 现 
它 的 搜索 引擎 。 在 本 章 中 ， 你 将 学 习 几 个 模块 ， 让 在 Python 中 抓 取 网 页 
变 得 很 容易 。 

webbrowser: 是 Python 自 带 的 ， 打 开 浏 览 器 获取 指定 页 面 。 

requests: 从 因特网 上 下 载 文件 和 网 页 。 


Beautiful Soup: 解析 HIML， 即 网 页 编写 的 格式 。 














selenium: 启动 并 控制 一 个 Web 浏 览 器 。selenium 能 够 填写 表单 ， 并 
模拟 鼠标 在 这 个 浏览 器 中 点 击 。 


11.1 项 目 : 利用 webbrowser 模 块 的 mapItpy 


webbrowser 模 块 的 open0 函 数 可 以 局 动 一 个 新 浏览 堪 ， 打 开 指 定 的 
URL。 在 交互 式 环境 中 输入 以 下 代码 : 








>>> import webbrowser 


>>> webbrowser.open('http://inventwithpython.com/' ) 


Web 浏 览 器 的 选项 卡 将 打开 URL http://inventwithpython.com/ 。 这 大 
概 束 是 webbrowser 模 块 能 做 的 唯一 的 事情 。 既 使 如 此 ，open(0) 函 数 确 实 
让 一 些 有 趣 的 事情 成 为 可 能 。 例 如 ， 将 一 条 街道 的 地 址 找 见 到 去 贴 板 ， 
并 在 Google 地 图 上 打开 它 的 地 图 ， 这 是 很 索 琐 的 事 。 你 可 以 让 这 个 任务 
减少 几 步 ， 写 一 个 简单 的 脚本 ， 利 用 豌 贴 板 中 的 内 容 在 浏览 器 中 自动 加 
~ 这 样 ， 你 只 要 将 地 址 找 贝 到 剪贴 板 ， 运 行 该 脚本 ， 地 图 就 会 加 
4X o 


你 的 程序 需要 做 到 : 


从 命令 行 参数 或 剪贴 板 中 取得 街道 地 址 。 

打开 Web 浏 览 嚣 ， 指 同 该 地 址 的 Google 地 图 页 面 。 
这 意味 着 代码 需要 做 下 列 事情 : 

从 sys.argv 读 取 命 令 行 参数 。 

EAM BY MEA A AE 

Vil FA webbrowser.open() BA Zt FF ARABII tA o 


打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保 存 为 mapIt.py。 








Aa ik SE yas 
第 1 步 : FPA ÆURL 


ee 建立 mapItpy， 这 样 当 你 从 命令 行 运行 它 
了 时， 例如 





C:\> mapit 870 Valencia St, San Francisco, CA 94110 





该 脚本 将 使 用 命令 行 参 数 ， 而 不 是 攀 贴 板 。 如 果 没 有 命令 行 参数 ， 
程序 就 知道 要 使 用 剪贴 板 的 内 容 。 


首先 你 需要 弄 清 楚 ， 对 于 指定 的 街道 地 址 ， 要 使 用 怎样 的 URL。 你 
在 浏览 器 中 打开 http://maps.google.com/ 并 查找 一 个 地 址 时 ， 地 址 栏 中 的 
URL 看 起 来 就 像 这 样 : https:// 
www.google.com/maps/place/870+ Valencia+St/@37.7590311,-122.4215096, 
17z/data= 
13m1!4b1!4m2!3m1!1s0x808f7e3dadc07a37:0xc86b0b2bb93b73d8. 


地 址 就 在 URL 中 ， 但 其 中 还 有 许多 附加 的 文本 。 网 站 常常 在 URL 中 
添加 额外 的 数据 ， 帮 助人 妃 踪 访问 者 或 定制 网 站 。 但 如 果 你 党 试 使 用 
https://www.google. 
com/maps/place/870+Valencia+St+San+Francisco+CA/， 会 发 现 仍然 可 以 
到 达 正 确 的 页 面 。 所 以 你 的 程序 可 以 设置 为 打开 一 个 浏览 器 ， 访 
[4] "https://www.google.com/ maps/place/your_address_string’ (pA 
your_address_string 是 想 查 看 地 图 的 地 址 ) 。 


第 2 步 : 处 理 命令 行 参数 


让 你 的 代码 看 起 来 像 这 样 : 





#! python3 
# mapIt.py - Launches a map in the browser using an address from the 
# command line or clipboard. 


import webbrowser, sys 
if len(sys.argv) > 1: 
# Get address from command line. 


address = ' '.join(sys.argv[1: ]) 


# TODO: Get address from clipboard. 





在 程序 的 #! 行 之 后 ， 需 要 导入 webbrowser 模 块 ， 用 于 加 载 浏 览 器 ; 
导入 sys 模 块 ， 用 于 读 入 可 能 的 命令 行 参数 。sys.argv 变 量 保存 了 程序 的 
文件 名 和 命令 行 参数 的 列表 。 如 果 这 个 列表 中 不 只 有 文件 名 ， 那 么 


len(sys.argv) 的 返回 值 就 会 大 于 1， 这 意味 着 确实 提供 了 命令 行 参 数 。 


命令 行 参数 通常 用 空格 分 隅 ， 但 在 这 个 例子 中 ， 你 希望 将 所 有 参数 
解释 为 一 个 字符 串 。 因 为 sys.argv 是 字符 串 的 列表 ， 所 以 你 可 以 将 它 传 
递 给 join 方法， 这 将 返回 一 个 字符 串 。 你 不 希望 程序 的 名 称 出 现在 这 
个 字符 串 中 ， 所 以 不 是 使 用 sys.argv， 而 是 使 用 sys.argv[1:]， 砍 挥 这 个 数 
A 这 个 表达 式 求 值 得 到 的 字符 串 ， 保 存在 address 变 量 





如 琳 运 行程 序 时 在 命令 行 中 输入 以 下 内 容 : 


mapit 876 Valencia St, San Francisco, CA 94110 








...SYyS.argv 变 量 将 包含 这 样 的 列表 值 : 


['mapIt.py', '87@', ‘Valencia’, ‘St, ', 'San', ‘Francisco, ', 'CA', '9411@ 








address 变 量 将 包含 字符 串 '870 Valencia St, San Francisco, CA 
94110'。 


第 3 步 : 处理 剪贴 板 内 容 ， 加 载 浏览 器 
让 你 的 代码 看 起 来 像 这 样 : 





#! python3 
# mapIt.py - Launches a map in the browser using an address from the 
# command line or clipboard. 


import webbrowser, sys, pyperclip 


if len(sys.argv) > 1: 
# Get address from command line. 
address = ' '.join(sys.argv[1: ]) 
else: 


# Get address from clipboard. 


address = pyperclip.paste() 


webbrowser .open( 'https://www.google.com/maps/place/' + address) 





如 果 没 有 命令 行 参 数 ， 程 序 将 假定 地 址 保存 在 剪贴 板 中 。 可 以 用 
pyperclip.pasteO 取 得 剪贴 板 的 内 容 ， 并 将 它 保存 在 名 为 address 的 变量 








中 。 最 后 ， 局 动 外 部 浏览 器 访问 Google 地 图 的 URL， 调 用 


webbrowser.open()。 


虽然 你 写 的 某 些 程序 将 完成 大 型 任务 ， 为 你 节省 数 小 时 的 时 间 ， 但 
使 用 一 个 程序 ， 在 每 次 执行 一 个 常用 任务 时 节省 几 秒 钟 时 间 ， 比 如 取得 
一 个 地 址 的 地 图 ， 这 同样 令 人 满意 。 表 11-1 比 较 了 有 mapIt.py 和 没有 它 
时 ， 显 示 地 图 所 需 的 步骤 。 





表 11-1 不 用 和 利用 mapItpy 取 得 地 图 


打开 Web 浏 览 器 
[> 
peoo 
oe 
e Tooo 


看 到 程序 让 这 个 任务 变 得 不 那么 繁琐 了 吗 ? 
第 4 步 : 类 似 程序 的 想法 


只 要 你 有 一 个 URL，webbrowser 模 块 就 让 用 户 不 必 打 开 浏 览 器 ， 而 
直接 加 载 一 个 网 站 。 其 他 程序 可 以 利用 这 项 功能 完成 以 下 任务 : 


。 在 独立 的 浏览 器 标签 中 ， 打 开 一 个 页 面 中 的 所 有 链接 。 
。 用 浏览 器 打开 本 地 天 气 的 URL。 
。 打开 你 经 常 查 看 的 几 个 社交 网 站 。 

11.2 用 requests 模 块 从 Web 下 载 文 件 


requests 模 块 让 你 很 容易 从 Web 下 载 文 件 ， 不 必 担 心 一 些 复杂 的 问 
































题 ， 诸 如 网 络 错误 、 连 接 问题 和 数据 压缩 。requests 模 块 不 是 Python 目 市 
的 ， 所 以 必须 先 安装 。 通 过 命令 行 ， 运 行 pip install requests (附录 人 A 详 
细 介 绍 了 如 何 安装 第 三 方 模块 ) 。 


编写 requests 模 块 是 因为 Python 的 urllib2 模 块 用 起 来 太 复杂 。 实 际 
上 ， 请 拿 一 支 记 号 笔 涂 黑 这 一 段 。 忘 记 我 曾 提 到 urllib2。 如 果 你 需要 从 
Web 下 载 东西 ， 使 用 requests 模 块 就 好 了 。 


接 下 来 ， 做 一 个 简单 的 测试 ， 确 你 requests 模 块 已 经 正确 安装 。 在 
交互 式 环境 中 输入 以 下 代码 : 





>>> import requests 











如 果 没 有 错误 信息 显示 ，requests 模 块 就 已 经 安装 成 功 了 。 
11.2.1 用 requests.get() 函 数 下 载 一 个 网 页 


requests.get() 隙 数 接受 一 个 要 下 载 的 URL 字 符 串 。 通 过 在 
requests.get() 的 返回 值 上 调用 type()， 你 可 以 看 到 它 返 回 一 个 Response 对 
象 ， 其 中 包含 了 Web 服 务 器 对 你 的 请 求 做 出 的 啊 应 。 稍 后 我 将 更 详细 地 
解释 Response 对 象 ， 但 现在 请 在 交互 式 环境 中 输入 以 下 代码 ， 并 保持 计 
算 机 与 因特网 的 连接 : 








>>> import requests 


@ >>> res = requests .get('http://www.gutenberg.org/cache/epub/1112/pg1112.t 


>>> type(res) 


<class ‘requests.models.Response' > 
@ >>> res.status_code == requests.codes.ok 


True 
>>> len(res.text) 


178981 
>>> print(res.text[ :250]) 


The Project Gutenberg EBook of Romeo and Juliet, by William Shakespeare 


This eBook is for the use of anyone anywhere at no cost and with 
almost no restrictions whatsoever. You may copy it, give it away or 
re-use it under the terms of the Proje 








该 URL 指 同一 个 文本 页 面 ， 其 中 包含 整 部 罗密欧 与 朱丽叶 ， 它 是 由 
古 登 堡 计划 @ 提 供 的 。 通 过 检查 Response 对 象 的 status_code 属 性 ， 你 可 
以 了 解 对 这 个 网 页 的 请 求 是 否 成 功 。 如 果 该 值 等 于 requests.codes.ok， 那 
么 一 切 都 好 人 @ (顺便 说 一 下 ，HTTP 协 议 中 “OK” 的 状态 码 是 200。 你 可 


能 已 经 熟悉 404 状 态 码 ， 它 表示 “ 没 找到 ”) 。 


如 果 请 求 成 功 ， 下 载 的 页 面 就 作为 一 个 字符 串 ， 保 存在 Response 对 
象 的 text 变 量 中 。 这 个 变量 保存 了 包含 整 部 戏剧 的 一 个 大 字符 串 ， 调 用 
len(res.text) 表 明 ， 它 的 长 度 超过 178000 个 字符 。 最 后 ， 调 用 


Po AY 


print(res.text[:250]) 显 示 前 250 个 字符 。 





11.2.2 检查 错误 


正如 你 看 到 的 ，Response 对 象 有 一 个 status_code 属 性 ， 可 以 检查 它 
是 否 等 于 requests.codes.ok， 了 解 下 载 是 否 成 功 。 检 查 成 功 有 一 种 简单 的 
方法 ， 就 是 在 Response 对 象 上 调用 raise_for_status() 方 法 。 如 果 下 载 文件 
出 错 ， 这 将 抛 出 异常 。 如 果 下 载 成 功 ， 就 什么 也 不 做 。 在 交互 式 环境 中 
输入 以 下 代码 : 








>>> res = requests.get('http://inventwithpython.com/page_ that does not exis 


>>> res.raise for status() 


Traceback (most recent call last): 
File "<pyshell#138>", line 1, in <module> 
res.raise for_status() 
File "C:\Python34\lib\site-packages\requests\models.py", line 773, in rai 
raise HTTPError(http_error_msg, response=self) 
requests.exceptions.HTTPError: 404 Client Error: Not Found 





raise_for_status() 方 法 是 一 种 很 好 的 方式 ， 确 保 程 序 在 下 载 失 败 时 停 
止 。 这 是 一 件 好 事 : 你 希望 程序 在 发 生 未 预期 的 错误 时 ， 马 上 停止 。 如 
果 下 载 失败 对 程序 来 说 不 够 严重 ， 可 以 用 try 和 except 语 句 将 


raise_for_status() 代 码 行 包 里 起 来 ， 处 理 这 一 错误 ， 不 让 程序 崩 尝 。 


import requests 
res = requests.get('http://inventwithpython.com/page that does not exist') 
try: 
res.raise for_status() 
except Exception as exc: 


print('There was a problem: %s' % (exc)) 





这 次 raise_for_status() 方 法 调用 导致 程序 输 出 以 下 内 容 : 


There was a problem: 404 Client Error: Not Found 





总 是 在 调用 requests.getO 之 后 再 调用 raise_for_status()。 你 希望 确保 
下 载 确实 成 功 ， 然 后 再 让 程序 继续 。 


11.3 将 下 载 的 文件 保存 到 便 盘 


现在 ， 可 以 用 标准 的 open0 函 数 和 write0) 方 法 ， 将 Web 页 面 保 存 到 
便 盘 中 的 一 个 文件 。 但 是 ， 这 里 稍稍 有 一 点 不 同 。 首 先 ， 必 须 用 “ 写 二 
进 制 ?模式 打开 该 文件 ， 即 癌 函 数 传 入 字符 串 "wb'， 作 为 open0 的 第 二 参 
数 。 即 使 该 页 面 是 纯 文本 的 (例如 前 面 下 载 的 罗密欧 与 朱丽叶 的 文 
本 ) ， 你 也 需要 写 入 二 进 制 数据 ， 而 不 是 文本 数据 ， 目 的 是 为 了 保存 该 
文本 中 的 “Unicode 编 码 ”。 


Unicode 编 码 超出 了 本 书 的 范围 ， 但 你 可 以 通过 以 下 网 页 了 解 更 多 的 相关 内 容 ， 





























e Joel on Software: The Absolute Minimum Every Software Developer Absolutely, Positively 
Must Know About Unicode and Character Sets (No Excuses!): 
http://www.joelonsoftware.com/articles/Unicode.html 

e Pragmatic Unicode: http://nedbatchelder.com/text/unipain.html 


为 了 将 Web 页 面 写 入 到 一 个 文件 ， 可 以 使 用 for 循 环 和 Response 对 象 
的 iter_content() 方 法 。 





>>> import requests 


>>> res = requests.get('http://www.gutenberg.org/cache/epub/1112/pg1112.txt 


>>> res.raise_for_status() 


>>> playFile = open('RomeoAndJuliet.txt', 'wb') 


>>> for chunk in res.iter_content(100000): 


playFile.write(chunk) 


100000 
78981 
>>> playFile.close() 


iter_content() 方 法 在 循环 的 每 次 迭代 中 ， 返 回 一 段 内 容 。 每 一 段 都 
是 bytes 数 据 类 型 ， 你 需要 指定 一 段 包含 多 少 字 节 。10 万 字 节 通 稼 是 不 错 
的 选择 ， 所 以 将 100000 作 为 参数 传递 给 iter_content()。 

文件 RomeoAndJuliet.txt 将 存在 于 当前 工作 目录 。 请 注意 ， 虽 然 在 网 
站 上 文件 名 是 pg1112.txt， 但 在 你 的 硬盘 上 ， 该 文件 的 名 字 不 同 。 
requests 模 块 只 处 理 下 载 网 页 内 容 。 一 旦 网 页 下 载 后 ， 它 就 只 是 程序 中 
的 数据 。 即 使 在 下 载 该 网 页 后 断 开 了 因特网 连接 ， 该 页 面 的 所 有 数据 仍 
然 会 在 你 的 计算 机 中 。 


write0) 方 法 返回 一 个 数字 ， 表 示 写 入 文件 的 字 节 数 。 在 前 面 的 例子 
中 ， 第 一 段 包含 100000 个 字 节 ， 文 件 剩 下 的 部 分 只 需要 78981 个 字 节 。 


回顾 一 下 ， 下 载 并 保存 到 文件 的 完整 过 程 如 下 : 

1. 调用 requests.get() 下 载 该 文件 。 

2. 用 'wb' 调 用 open0， 以 写 二 进 制 的 方式 打开 一 个 新 文件 。 

3. 利用 Respose 对 象 的 iter_content() 方 法 做 循环 。 

4. 在 每 次 迭代 中 调用 write0， 将 内 容 写 入 该 文件 。 

5. 调用 close0 关 闭 该 文件 。 

这 就 是 关于 requests 模 块 的 全 部 内 容 ! 相对 于 写 入 文本 文件 的 
open()/write()/ close0 工 作 步 又 ，for 循 环 和 iter_contentO 的 部 分 可 能 看 起 
来 比较 复杂 ， 但 这 是 为 了 确保 requests 模 块 即使 在 下 载 巨大 的 文件 时 也 


不 会 消耗 太 多 内 存 。 你 可 以 访问 http://requests.readthedocs.org/ ， 了 解 
requests 模 块 的 其 他 功能 。 

















11.4 HTML 


在 你 拆 解 网 页 之 前 ， 需 要 学 习 一 些 HTML 的 基本 知识 。 你 也 会 看 到 
人 


11.4.1 学 习 HTMIL 的 资源 


超 文本 标记 语言 (HTML) 是 编写 Web 页 面 的 格式 。 本 章 假 定 你 对 
HTML 有 一 些 基 本 经 验 ， 但 如 果 你 需要 初学 者 指南 ， 我 推荐 以 下 站 反 : 





e http://htmldog.com/guides/html/beginner/ 
e http://www.codecademy.com/tracks/web/ 
e https://developer.mozilla.org/en-US/learn/html/ 


11.4.2 快速 复习 


假定 你 有 一 段 时 间 没 有 看 过 HTML 了 ， 这 里 是 对 基本 知识 的 快速 复 
习 。HTMEL 文 件 是 一 个 纯 文 本 文件 ， 带 有 .html 文 件 扩展 名 。 这 种 文件 中 
的 文本 被 “标签 ?环绕 ， 标 签 是 尖 括 号 包围 的 单词 。 标 签 告 诉 浏览 器 以 怎 
样 的 格式 显示 该 页 面 。 一 个 开始 标签 和 一 个 结束 标签 可 以 包围 某 段 文 
本 ， 形 成 一 个 “元 素 ”。“ 文 本 ”( 或 “内 部 的 HIML”) 是 在 开始 标签 和 结 
束 标签 之 间 的 内 容 。 例 如 ， 下 面 的 HTML 在 浏览 器 中 显示 Hello world!, 
其 中 Hello 用 粗 体 显示 。 


<strong>Hello</strong> world! 





这 段 HTML 在 浏览 器 中 看 起 来 如 图 11-1 所 示 。 





全 CC [D file:///C:/index.html 


Hello world! 


图 11-1 浏览 器 泻 染 的 Hello world! 


开始 标签 < strong> 表 明 ， 标 签 包围 的 文本 将 使 用 粗 体 。 结 束 标签 < 
/strong> 告 诉 浏览 器 ， 粗 体 文本 到 此 结束 。 


HIML 中 有 许多 不 同 的 标签 。 有 一 些 标签 具有 额外 的 特性 ， 在 尖 丘 
号 内 以 “属性 ”的 方式 展现 。 例 如 ，< a> 标 签 包含 一 段 文本 ， 它 应 该 是 一 
个 链接 。 这 上段 文本 链接 的 URL 是 由 href 属 性 确定 的 。 下 面 是 一 个 例子 ， 








Al's free &lt;a href="http://inventwithpython.com">Python books&lt;/a>. 





这 段 HIML 在 浏览 器 中 看 起 来 如 图 11-2 所 示 。 
f D index.htm C 


全 Cc D file:///C:/index.html 





Al's free Python books. 


图 11-2 浏览 器 中 演 染 的 链接 


茶 些 元 系 上 共有 id 属 性 ， 可 以 用 来 在 页 面 上 唯一 地 确定 该 元 素 。 你 党 
常会 告诉 程序 ， 根 据 元 系 的 id 属 性 来 寻找 它 。 所 以 利用 浏览 器 的 开 及 者 
工具 ， 弄 清楚 元 素 的 id 属 性 ， 这 是 编写 Web 抓 取 程序 第 见 的 任务 。 











11.4.3 查看 网 页 的 HTML 源 代码 


对 于 程序 要 人 处理 的 网 页 ， 你 需要 查看 它 的 HTML 源 代码 。 要 做 到 这 
一 点 ， 在 浏览 器 的 任意 网 页 上 点 击 右 键 ( 或 在 OS X 上 Ctrl 点击 ) ， 选 择 
View Source 或 View page source, AAZ RAY HTML 文本 (参见 图 11- 
3) 。 这 是 浏览 器 实际 接收 到 的 文本 。 浏 览 器 知道 如 何 通 过 这 个 HTML 
显示 或 演 染 网 页 。 
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2|<html xmins="http://www.w3.org/1999/xhtml" lang="en" xml: lang="en"> g 
3 


<head> 
5|<meta http-equiv="Content-Type” content="text/html; charset=utf-8" /> 
<!-- If it's a special page, don't show in page title --> 
<title>No Starch Press</title> 
<!--— <title>--><!-—</title>--> 
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 
10|}<link rel="alternate" type="application/rss+xml" title="No Starch Press - New Books" 
href="/feeds/newbooks.xml" /> 
W|I <link rel="alternate" type="application/rss+xml" title="No Starch Press - Coming Soon" 
href="/feeds/comingsoon.xml" /> 
2| <link rel="shortcut icon" href="/sites/default/files/favicon.ico" type="image/x-icon" /> 
13|<style type='text/css'>#cart-block-contents { display: none; }</style> 
14 <link type="text/css" rel="stylesheet” media="all" 
href="/sites/default/files/css/css_5ai5fd3d9271iebcf2cb9468161ec699.css" /> 
<script type="text/javascript" src="/sites/default/files/js/js_©68a199a03427a0b7d06b6c5460bcie7.j38"> 
</script> 
16| <script type="text/javascript"> 
17| <!--//--><! [CDATA[//><!-- 











图 11-3 查看 网 页 的 源 代码 


我 强烈 建议 你 查看 一 些 自己 喜欢 的 网 站 的 HTML 源 代码 。 在 查看 源 
代码 时 ， 如 果 你 不 能 完全 理解 ， 也 没有 关系 。 你 不 需要 完全 掌握 
HTML， 也 能 编写 简单 的 web 抓 取 程 序 ， 毕 竟 你 不 是 要 编写 自己 的 网 
站 。 只 需要 足够 的 知识 ， 就 能 从 已 有 的 网 站 中 挑选 数据 。 


11.4.4 打开 浏览 器 的 开发 者 工具 


除了 查看 网 页 的 源 代 码 ， 你 还 可 以 利用 浏览 器 的 开发 者 工具 ， 来 检 
查 页 面 的 HTML。 在 Windows 版 的 Chrome 和 下 中， 开发 者 工具 已 经 安装 
了 。 可 以 按 下 Fl12， 让 它们 出 现 〈 参 见 图 11-4) 。 再 次 按 下 F12， 可 以 让 
开发 者 工具 消失 。 在 Chrome 中 ， 也 可 以 选择 View » Developer 
> Developer Tools， 调 出 开发 者 工具 。 在 OS XF} FH- Option-I， 将 打 
开 Chrome 的 开发 者 工具 。 


对 于 Firefox， 可 以 在 Windows 和 Linux 中 需要 按 下 Ctrl-Shift-C， 或 在 
OS XX 中 按 下 虹 -option-C， 调 出 开发 者 工具 查看 器 。 它 的 布局 几乎 与 
Chrome 的 开发 者 工具 一 样 。 
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30 requests | 6.4 KB transferred | 3.48 s (load: 3.49 s, DOMContentLoaded: 2.20 s) 
图 11-4 Chrome 浏 览 器 中 的 开发 者 工具 窗口 


在 Safari 中 ， 打 开 Preferences 窗 口 ， 并 在 Advanced pane 选 中 Show 
Develop menu in the menu bar 选 项 。 在 它 启用 后 ， 你 可 以 按 下 红 -option- 
I， 调 出 开发 者 工具 。 


在 浏览 器 中 启用 或 安装 了 开发 者 工具 之 后 ， 可 以 在 网 页 中 任何 部 分 
点 击 右键 ， 在 弹出 菜单 中 选择 Inspect Element， 查 看 页 面 中 这 一 部 分 对 
应 的 HTML。 如 果 需 要 在 Web 抓 取 程序 中 解析 HTML， 这 很 有 帮助 。 


个 要 用 正则 表达 式 来 解析 HTML 


在 一 个 字符 串 中 定位 特定 的 一 段 HIML， 这 似乎 很 适合 使 用 正则 表达 式 。 但 是 ， 我 建议 你 不 要 
这 么 做 。HTML 的 格式 可 以 有 许多 不 同 的 方式 ， 并 且 仍 然 被 认为 是 有 效 的 HIML， 但 尝试 用 正 
则 表达 式 来 捕捉 所 有 这 些 可 能 的 变化 ， 将 非常 繁琐 ， 并 且 容 易 出 错 。 专 门 用 于 解析 HTML 的 模 
块 ， 诸 如 Beautiful Soup， 将 更 不 容易 导致 缺陷 。 在 http://stackoverflow.com/a/1732454/1893164/ 
， 你 会 看 到 更 充分 的 讨论 ， 了 解 为 什么 不 应 该 用 正则 表达 式 来 解析 HTML。 


11.4.5 使 用 开发 者 工具 来 寻找 HTML 元素 


程序 利用 requests 模 块 下 载 了 一 个 网 页 之 后 ， 你 会 得 到 该 页 的 HTML 
内 容 ， 作 为 一 个 字符 串 值 。 现 在 你 需要 弄 清 楚 ， 这 上 段 HTML 的 哪个 部 分 





























对 应 于 网 页 上 你 感 兴趣 的 信息 。 


这 就 是 可 以 利用 浏览 器 的 开发 者 工具 的 地 方 。 假 定 你 需要 编写 一 个 
程序 ， 从 http://weather.gov/ 获取 天 气 预 报 数据 。 在 写 代码 之 前 ， 先 做 一 
点 调查 。 如 果 你 访问 该 网 站 ， 并 查找 邮政 编码 94105， 访 网 站 将 打开 一 
个 页 面 ， 显 示 该 地 区 的 天 气 预 报 。 


如 果 你 想 抓 取 那 个 邮政 编码 对 应 的 气温 信息 ， 怎 么 办 ? 右键 点 击 它 
在 页 面 的 位 置 (或 在 OS XX 上 用 Control- 点 击 ) ， 在 弹出 的 菜单 中 选择 
Inspect Element。 这 将 打开 开发 者 工具 窗口 ， 其 中 显示 产生 这 部 分 网 页 
的 HTML。 图 11-5 展 示 了 开发 者 工具 打开 显示 气温 的 HTML。 
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图 11-5 用 开发 者 工具 查看 包含 温度 文本 的 元 素 


通过 开发 者 工具 ， 可 以 看 到 网 页 中 负责 气温 部 分 的 HIML 是 < 
class= ' 'myforecast- current-Irg">57°F< /p>。 这 正 是 你 要 找 的 东西 ! 看 起 
气温 信息 包含 在 一 个 < p> 元 素 中 ， 带 有 myforecast-current-lrg 类 。 既 然 
ini T RAL A ， BeautifulSoup 模 块 就 可 以 帮助 你 在 这 个 字符 串 
到 它 。 








11.5 用 BeautifulSoup 模 块 解 析 HTML 


Beautiful Soup 是 一 个 模块 ， 用 于 从 HTML 页 面 中 提取 信息 (用 于 这 
个 目的 时 ， 它 比 正 则 表达 式 好 很 多 ) 。BeautifulSoup 模 块 的 名 称 是 
bs4( 表 示 Beautiful Soup， 第 4 版 ) 。 要 安装 它 ， 需 要 在 命令 行 中 运行 pip 
install beautifulsoup4〈 关 于 安装 第 三 方 模块 的 指导 ， 请 查看 附录 A) o 
虽然 安装 时 使 用 的 名 字 是 beautifulsoup4， 但 要 导入 它 ， 就 使 用 import 
bs4. 


fEA TH, Beautiful Soup 的 例子 将 解析 《〈 即 分 析 并 确定 其 中 的 一 些 
部 分 ) 硬盘 上 的 一 个 HITML 文 件 。 在 IDLE 中 打开 一 个 新 的 文件 编辑 器 窗 
口 ， 输 入 以 下 代码 ， 并 保存 为 example.html。 或 者 ， 从 


http://nostarch.com/automatestuff/ 下 载 它 。 








<!-- This is the example.html example file. --> 


<html><head><title>The Website Title</title></head> 

<body> 

<p>Download my <strong>Python</strong> book from <a href="http:// 
inventwithpython.com">my website</a>.</p> 

<p class="slogan">Learn Python the easy way!</p> 


<p>By <span id="author">Al Sweigart</span></p> 
</body></htm1> 





你 可 以 看 到 ， 既 使 一 个 简单 的 HTMEL 文 件 ， 也 包含 许多 不 同 的 标签 
和 属性 。 对 于 复杂 的 网 站 ， 事 情 很 快 融 变 得 令 人 困惑 。 好 在 ，Beanutiful 
Soup 让 处 理 HTML 变 得 容易 很 多 。 


11.5.1 从 HTML 创建 一 个 BeautifulSoup 对 象 
bs4.BeautifulSoup0O 函 数 调用 时 需要 一 个 字符 串 ， 其 中 包含 将 要 解析 


的 HTML。bs4.BeautifulSoup() 函 数 返回 一 个 BeautifulSoup 对 象 。 在 交互 
式 环境 中 输入 以 下 代码 ， 同 时 保持 计算 机 与 因特网 的 连接 : 


>>> import requests, bs4 





>>> res = requests.get('http://nostarch.com' ) 


>>> res.raise_for_status() 


>>> noStarchSoup = bs4.BeautifulSoup(res.text) 


>>> type(noStarchSoup) 


< class 'bs4.BeautifulSoup'> 





这 上 段 代 码 利用 requests.get() 函 数 从 No Starch Press 网 站 下 载 主页 ， 然 
后 将 啊 应 结果 的 text 属 性 传递 给 bs4.BeautifulSoup()。 它 返回 的 
BeautifulSoup 对 象 保存 在 变量 noStarchSoup 中 。 


也 可 以 向 bs4.BeautifulSoup() 传 递 一 个 File 对 象 ， 从 硬盘 加 载 一 个 
HTML 文 件 。 在 交互 式 环境 中 输入 以 下 代码 确保 example.html 文 件 在 
工作 目录 中 ) : 


>>> exampleFile = open('example.html' ) 


>>> exampleSoup = bs4.BeautifulSoup(exampleFile) 


>>> type(exampleSoup) 


< class 'bs4.BeautifulSoup' > 





有 了 BeautifulSoup 对 象 之 后 ， 就 可 以 利用 它 的 方法 ， 定 位 HIML 文 


档 中 的 特定 部 分 。 
11.5.2 用 select(0 方 法 寻找 元 素 


针对 你 要 寻找 的 元 素 ， 调 用 method() 方 法 ， 传 入 一 个 字符 串 作 为 
CSS“ 选 择 器 ”， 这 样 就 可 以 取得 Web 页 面 元 素 。 选 择 器 就 像 正 则 表达 
A: 它们 指定 了 要 寻找 的 模式 ， 在 这 个 例子 中 ， 是 在 HTML 页 面 中 寻 
找 ， 而 不 是 普通 的 文本 字符 串 。 


完整 地 讨论 CSS 选择 器 的 语法 超出 了 本 书 的 范围 (在 
http://nostarch.com/automatestuff/ 的 资源 中 ， 有 很 好 的 选择 器 指南 ) ， 但 
en en 表 11-2 举 例 展示 了 大 多 数 常 用 CSS 选 择 
器 的 模式 。 





表 11-2 CSS 选 择 器 的 例子 








传递 给 select() 方法 的 选择 器 将 匹配 ... 


soup.select(‘div') 所 有 名 为 < div> 的 元 素 





soup.select(#author) 带 有 id 属性 为 author 的 元 素 


soup.select('.notice’) 所 有 使 用 CSS class 属 性 名 为 notice 的 元 素 























soup.select(‘div span’) 所 有 在 < div> 元 素 之 内 的 < span>70 


soup.select('div > span’) T div> 元 素 之 内 的 < span> 元 素 ， 中 间 没 

















sonp selecitinpudnamel) Te input>， 并 有 一 个 name 属 性 ， 其 值 无 所 








所 有 名 为 < input>， 并 有 一 个 type 属 | 
button 的 元 素 








soup.select(‘input[type="button"]') 





不 同 的 选择 器 模式 可 以 组 合 起 来 ， 形 成 复杂 的 匹配 。 例 如 ， 
soup.select('p #author) 将 匹配 所 有 id 属性 为 author 的 元 素 ， 只 要 它 也 在 一 
Spas 


select() 方 法 将 返回 一 个 Tag 对 象 的 列表 ， 这 是 Beautiful Soup 表 示 一 
个 HTML 元 素 的 方式 。 针 对 BeautifulSoup 对 象 中 的 HTML 的 每 次 匹配 ， 
列表 中 都 有 一 个 Tag 对 象 。Tag 值 可 以 传递 给 str() 函 数 ， 显 示 它 们 代表 的 
HTML 标 签 。Tag 值 也 可 以 有 attrs 属 性 ， 它 将 该 Tag 的 所 有 HTML 属 性 作 
ad 。 利 用 前 面 的 example.html 文 件 ， 在 交互 式 环境 中 输入 以 下 








>>> import bs4 


>>> exampleFile = open('example.html' ) 


>>> exampleSoup = bs4.BeautifulSoup(exampleFile.read() ) 


>>> elems = exampleSoup.select('#author' ) 


>>> type(elems) 


< class 'list'> 
>>> len(elems) 


1 
>>> type(elems[0]) 


< class 'bs4.element.Tag'> 
>>> elems[0].getText() 


'Al Sweigart' 
>>> str(elems[0]) 


'< span id="author">Al Sweigart< /span>' 
>>> elems[@].attrs 


{'id': ‘author'} 





这 段 代 码 将 带 有 id="author" 的 元 素 ， 从 示例 HTML 中 找 出 来 。 我 
们 使 用 select(#author”) 人 返回 一 个 列表 ， 其 中 包含 所 有 市 有 id="author" 的 元 





素 。 我 们 将 这 个 Tag 对 象 的 列表 保存 在 变量 中 elems，len(elems) 告 诉 我 们 
列表 中 只 有 一 个 Tag 对 象 ， 只 有 一 次 匹配 。 在 该 元 素 上 调用 getText() 方 

法 ， 返 回 该 元 素 的 文本 ， 或 内 部 的 HTML 。 一 个 元 素 的 文本 是 在 开始 和 
结束 标签 之 间 的 内 容 : 在 这 个 例子 中 ， 就 是 'Al Sweigart 。 





将 该 元 素 传递 给 str0， 这 将 返回 一 个 字符 串 ， 其 中 包含 开始 和 结束 
标签 ， 以 及 该 元 素 的 文本 。 最 后 ，atts 给 了 我 们 一 个 字典 ， 包 含 该 元 素 
的 属性 td， 以 及 id 属性 的 值 author。 


也 可 以 从 BeautifulSoup 对 象 中 找 出 < p> 元 素 。 在 交互 式 环境 中 输入 
以 下 代码 : 





>>> pElems = exampleSoup.select('p') 


>>> str(pElems[@]) 


"< p>Download my < strong>Python< /strong> book from < a href="http:// 
inventwithpython.com">my website< /a>.< /p>' 
>>> pElems[@].getText() 


"Download my Python book from my website. ' 
>>> str(pElems[1]) 


"< p class="slogan">Learn Python the easy way!< /p>' 
>>> pElems[1].getText() 


"Learn Python the easy way!' 
>>> str(pElems[2]) 


"< p>By < span id="author">Al Sweigart< /span>< /p>' 
>>> pElems[2].getText() 


"By Al Sweigart' 





这 一 次 ，select0 给 我 们 一 个 列表 ， 包 含 3 次 匹配 ， 我 们 将 它 保存 在 
pElems 中 。 在 pElems[0]、pElems[1] 和 pElems[2] 上 使 用 str()， 将 每 个 元 素 





显示 为 一 个 字符 串 ， 并 在 每 个 元 素 上 使 用 getText()， 显 示 它 的 文本 。 








11.5.3 通过 元 素 的 属性 获取 数据 


Tag 对 象 的 get() 方 法 让 我 们 很 容易 从 元 素 中 获取 属性 值 。 同 该 方法 
传 入 一 个 属性 名 称 的 字符 串 ， 它 将 返回 该 属性 的 值 。 利 用 
example.html， 在 交互 式 环境 中 输入 以 下 代码 : 











>>> import bs4 


>>> soup = bs4.BeautifulSoup(open('example.html')) 


>>> spanElem = soup.select('span')[6] 


>>> str(spanElem) 


"< span id="author">Al Sweigart< /span>' 
>>> SpanElem.get('id') 


‘author' 
>>> spanElem.get('some_nonexistent_addr') == None 


True 
>>> spanElem.attrs 


{'id': “author 





这 里 ， 我 们 使 用 select() 来 寻找 所 有 < span> 元 素 ， 然 后 将 第 一 个 匹配 
i eee 。 将 属性 名 'id' 传 递 给 get()， 返 回 该 属性 的 
'author'。 


11.6 WH: “I’m Feeling Lucky”Google® +X 


每 次 我 在 Google 上 搜索 一 个 主题 时 ， 都 不 会 一 次 只 看 一 个 搜索 结 
果 。 通 过 鼠标 中 键 点 击 搜索 结果 链接 ， 或 在 点 击 时 按 住 CTRL 键 ， 我 会 
在 一 些 新 的 选项 卡 中 打开 前 几 个 链接 ， 稍 后 再 来 得 看 。 我 经 向 搜索 
Google， 所 以 这 个 工作 流程 〈 开 浏览 器 ， 碍 找 一 个 主题 ， 依 次 用 中 键 点 
击 几 个 链接 ) 变 得 很 乏味 。 如 宁 我 只 要 在 命令 行 中 输入 碍 找 主题 ， 就 能 
让 计算 机 目 动 打开 浏览 右 ， 并 在 新 的 选项 卡 中 显示 前 面 几 项 碍 询 结果 ， 
那 就 太 好 了 。 让 我 们 写 一 个 脚本 来 完成 这 件 事 。 

下 面 是 程序 要 做 的 事 : 

。 从 命令 行 参数 中 获取 碍 询 关 键 字 。 
。 取得 查询 结果 页 面 。 
。 为 每 个 结果 打开 一 个 浏览 需 选 项 卡 。 

这 意味 着 代码 需要 完成 以 下 工作 : 


从 sys.argv 中 读 取 命令 行 参数 。 

用 requests 模 块 取 得 查询 结果 页 面 。 

找到 每 个 查询 结果 的 链接 。 

调用 webbrowser.open() 函 数 打开 Web 浏 览 器 。 





























打开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 IJucky.py。 
第 1 步 : 获取 命令 行 参数 ， 并 请 求 碍 找 页 面 


开始 编码 之 前 ， 你 首先 要 知道 查找 结果 页 面 的 URL。 在 进行 Google 
得 找 后 ， 你 看 浏览 器 地 址 栏 ， 就 会 发 现 结果 页 面 的 URL 类 似 于 
https://www.google.com/ search?q=SEARCH_TERM_HERE。requests 模 块 
可 以 下 载 这 个 页 面 ， 然 后 可 以 用 Beautiful Soup， 找 到 HTML 中 的 查询 结 
oe 。 最 后 ， 用 webbrowser 模 块 ， 在 浏览 器 选项 卡 中 打开 这 些 链 


让 你 的 代码 看 起 来 像 这 样 : 





#! python3 
# lucky.py - Opens several Google search results. 


import requests, sys, webbrowser, bs4 

print('Googling...') # display text while downloading the Google page 
res = requests.get('http://google.com/search?q=' + ' '.join(sys.argv[1:])) 
res.raise for_status() 


# TODO: Retrieve top search result links. 


# TODO: Open a browser tab for each result. 








用 户 运 行 该 程序 时 ， 将 通过 命令 行 参数 指定 查找 的 主题 。 这 些 参数 
将 作为 字符 串 ， 保 存在 sys.argv 列 表 中 。 


第 2 步 : 找到 所 有 的 结果 


现在 你 需要 使 用 Beautiful Soup， 从 下 载 的 HTML 中 ， 提 取 排 名 靠 前 
的 碍 找 结果 链接 。 但 如 何 知道 完成 这 项 工作 需要 怎样 的 选择 器 ? 例如 ， 
你 不 能 只 查找 所 有 的 < a> 标 签 ， 因 为 在 这 个 HIML 中 ， 有 许多 链接 你 是 
不 关 必 的。 因此 ， 必 须 用 浏览 器 的 开发 者 工具 来 检查 这 个 查找 结果 页 
面 ， 和 尝试 寻找 一 个 选择 器 ， 它 将 挑选 出 你 想 要 的 链接 。 








在 针对 Beautiful Soup 进 行 Google 碍 询 后 ， 你 可 以 打开 浏览 句 的 开发 
者 工具 ， 碍 看 该 页 面 上 的 一 些 链 接 元 素 。 它 们 看 起 来 复杂 得 难以 置信 ， 
大 概 像 这 样 : < a href="/url? 
sa=t&amp;rct=j&amp;q=&amp;esrc=s&amp;source=web&amp;cd=1&amp; 
cad=rja&camp;uact=8&amp;ved=0CCgQFjAA &amp;url=http%3A%2F%2Fw 
%2FBeautifulSoup%2F& 
amp;ei=LHBVU_XDD9KVyAShm Y DwCw&amp;usg=A FQ}]CNHAxwplurF 
TuLQ&amp;sig2=sdZu6W VIBIVSDrwhtworMA" onmousedown="return 
rwt(this,",",",'1',, AFQ})CNH AxwplurFOBqg5cehWQEVKi- 
TuLQ','sdZu6W VIBIVSDrwhtworMA','OCCgQFjAA',",",event)" data- 
href="http://www. crummy.com/software/BeautifulSoup/">< em> 
BeautifulSoup< /em>: We called him Tortoise because he taught us.< /a> 
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果 链 接 都 具有 的 模式 。 但 这 个 < a> 元 系 没 有 什么 特殊 ， 难 以 和 该 页 面 上 
非 查 询 结果 的 < a> 元 素 区 分 开 来 。 


确保 你 的 代码 看 起 来 像 这 样 : 

















#! python3 
# lucky.py - Opens several google search results. 


import requests, sys, webbrowser, bs4 


--snip 


# Retrieve top search result links. 


soup = bs4.BeautifulSoup(res.text) 


# Open a browser tab for each result. 


linkElems = soup.select('.r a') 





但 是 ， 如 果 从 < a> 元 素 癌 上 看 一 点 ， 就 会 有 发现 这 样 一 个 元 素 : < h3 
class="r">。 查 看 余下 的 HTML 源 代码 ， 看 起 来 tr 类 仪 用 于 查询 结果 链 








接 。 你 不 需要 知道 CSS 类 r 是 什么 ， 或 者 它 会 做 什么 。 只 需要 利用 它 作 为 
一 个 标记 ， 碍 找 需 要 的 < a> 元 素 。 可 以 通过 下 载 页 面 的 HIML 文 本 ， 创 
建 一 个 BeautifulSoup 对 象 ， 然 后 用 选择 符 'ra， 找 到 所 有 有 具有 CSS 类 r 的 
元 素 中 的 <a> 元 素 。 











第 3 步 ， 针对 每 个 结果 打开 Web 浏 览 器 


最 后 ， 我 们 将 告诉 程序 ， 针 对 结果 打开 Web 浏 览 器 选项 卡 。 将 下 面 
的 内 容 添 加 到 程序 的 末尾 : 





#! python3 
# lucky.py - Opens several google search results. 


import requests, sys, webbrowser, bs4 


--snip 


# Open a browser tab for each result. 
linkElems = soup.select('.r a') 
numOpen = min(5, len(linkElems) ) 


for i in range(numOpen): 


webbrowser .open( 'http://google.com' + linkElems[i].get('href' )) 





默认 情况 下 ， 你 会 使 用 webbrowser 模 块 ， 在 新 的 选项 卡 中 打开 前 5 
个 查询 结果 。 但 是 ， 用 户 查 询 的 主题 可 能 少 于 5 个 查询 结果 。 
soup.select() 调 用 返回 一 个 列表 ， 包 含 匹 配 '.r a' 选 择 器 的 所 有 元 素 ， 所 以 





A 要 么 是 这 个 列表 的 长 度 〈 取 决 于 哪 一 个 更 
小 ) 。 


内 建 的 Python 函数 min0 返 回 传 入 的 整 型 或 浮 点 型 参数 中 最 小 的 一 个 
(也 有 内 建 的 max() 函 数 ， 返 回 传 入 的 参数 中 最 大 的 一 个 ) 。 你 可 以 使 
用 min() 弄 清楚 该 列表 中 是 否 少 于 5 个 链接 ， 并 且 将 要 打开 的 链接 数 保 存 
在 变量 humOpen 中 。 然 后 可 以 调用 range(numOpen)， 执 行 一 个 for 循 环 。 





在 该 循环 的 每 次 迭代 中 ， 你 使 用 webbrowser.open()， 在 Web 浏 览 占 
中 打开 一 个 新 的 选项 卡 。 请 注意 ， 返 回 的 < a> 元 素 的 href 属 性 中 ， 不 包 
含 初始 的 http://google.com 部 分 ， 所 以 必须 连接 它 和 href 属 性 的 字符 串 。 


现在 可 以 马上 打开 前 5 个 Google 全 找 结果 ， 比 如 说 ， 要 查找 Python 


programming tutorials， 你 只 要 在 命令 行 中 运行 lucky python programming 


tutorials〈 如 何在 你 的 操作 系统 中 方便 地 运行 程序 ， 请 参看 附录 B) 。 
第 4 步 : 类 似 程序 的 想法 


分 选项 卡 浏览 的 好 处 在 于 ， 很 容易 在 新 选项 卡 中 打开 一 些 链接 ， 稍 
E 0 3350 


。 查找 亚马逊 这 样 的 电 商 网 站 后 ， 打 开 所 有 的 产品 页 面 ; 
。 打开 针对 一 个 产品 的 所 有 评论 的 链接 ; 
链接 。 


11.7 项 目 : 下 载 所 有 XKCD 漫 画 


博客 和 其 他 经 党 更 新 的 网 站 通常 有 一 个 首页 ， 其 中 有 最 新 的 帖子 ， 
以 及 一 个 “前 一 篇 ”按钮 ， 将 你 市 到 以 前 的 帖子 。 然 后 那个 帖子 也 有 一 
个 “前 一 篇 ?按钮 ， 以 此 类 推 。 这 创建 了 一 条 线索 ， 从 最 近 的 页 面 ， 直 到 
该 网 站 的 第 一 个 帖子 。 如 果 你 希望 拷贝 该 网 站 的 内 容 ， 在 离线 的 时 候 阅 
读 ， 可 以 手工 导航 至 每 个 页 面 并 保存 。 但 这 是 很 无 聊 的 工作 ， 所 以 让 我 
们 写 一 个 程序 来 做 这 件 事 。 


XKCD 是 一 个 流行 的 极 客 漫画 网 站 ， 它 符合 这 个 结构 (参见 图 11- 
6) 。 首 页 http:/xkcd.com/ 有 一 个 “Prev” 按 钮 ， 让 用 户 导 航 到 前 面 的 漫 
画 。 手 工 下 载 每 张 漫 画 要 花 较 长 的 时 间 ， 但 你 可 以 写 一 个 脚本 ， 在 几 分 
钟 内 完成 这 件 事 。 

下 面 是 程序 要 做 的 事 : 
。 加 载 主页 ; 
。 保存 该 页 的 漫画 图 片 ; 


© 转 入 前 一 张 漫画 的 链接 ; 
。 HAA okie H. 
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图 11-6 XKCD,“ 关 于 浪漫 、 讽 刺 、 数 学 和 语言 的 漫画 网 站 ” 
这 意味 着 代码 需要 做 下 列 事情 : 


利用 requests 模 块 下 载 页 面 。 

利用 Beautiful Soup 找 到 页 面 中 漫画 图 像 的 URL。 
利用 iter_contentO 下 载 漫画 图 像 ， 并 保存 到 便 盘 。 
找到 前 一 张 漫画 的 链接 URL， 然 后 重复 。 


打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保存 为 downloadXkcd.py。 








第 1 步 : 设计 程序 
打开 一 个 浏览 器 的 开发 者 工具 ， 检 查 该 页 面 上 的 元 素 ， 你 会 发 现下 
面 的 内 容 : 


。 漫画 图 像 文 件 的 URL， 由 一 个 < img> 元 素 的 href 属 性 给 出 。 
e <img> tA Æ< div id="comic"> 元 素 之 内 。 
。 Prev 按 钮 有 一 个 rel HTML 属 性 ， 值 是 prev。 





。 第 一 张 漫画 的 Prev 按 钮 链接 到 http://xkcd.com/# URL， 表 明 没 有 前 一 
A 


让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 


import requests, os, bs4 


url = ‘http://xkcd.com' # starting url 
os.makedirs('xkcd', exist_ok=True) # store comics in ./xkcd 
while not url.endswith('#'): 

# TODO: Download the page. 


# TODO: Find the URL of the comic image. 


# TODO: Download the image. 
# TODO: Save the image to ./xkcd. 
# TODO: Get the Prev button's url. 


print('Done.') 





你 会 有 一 个 ur 变量， 开始 的 值 是 'http://xkcd.com'"， 然 后 反复 更 新 
《在 一 个 for 循 环 中 ) ， 变 成 当前 页 面 的 Prev 链 接 的 URL。 在 循环 的 每 一 
步 ， 你 将 下 载 URL 上 的 漫画 。 如 果 UREL 以 扩 结 束 ， 你 就 知道 需要 结束 循 


`Yo 


将 图 像 文件 下 载 到 当前 目录 的 一 个 名 为 xkcd 的 文件 夹 中 。 调 用 
os.makedirsO 函 数 。 确 保 这 个 文件 夹 存 在 ， 并 且 关 键 字 参数 
exist_ok=True 在 该 文件 夹 已 经 存在 时 ， 防 止 该 函数 抛 出 异常 。 剩 下 的 代 
码 只 是 注释 ， 列 出 了 剩 下 程序 的 大 纲 。 


第 2 步 : 下 载 网 页 
我 们 来 实现 下 载 网 页 的 代码 。 让 你 的 代码 看 起 来 像 这 样 : 





#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 


import requests, os, bs4 


url = ‘'http://xkcd.com' # starting url 
os.makedirs('xkcd', exist_ok=True) # store comics in 
while not url.endswith('#'): 

# Download the page. 


print('Downloading page %s...' % url) 


res = 


requests.get(url1) 


res.raise_for_status() 


soup = bs4.BeautifulSoup(res.text) 


# TODO: 


# TODO: 


# TODO: 


# TODO: 


Find the URL of the comic image. 
Download the image. 
Save the image to ./xkcd. 


Get the Prev button's url. 





./xkcd 


print('Done.') 





站 先 ， 打 印 url， 这 样 用 户 就 知道 程序 将 要 下 载 哪 个 URL。 然 后 利用 
requests 模 块 的 request.getO 函 数 下 载 它 。 像 以 往 一 样 ， 马 上 调用 Response 
对 象 的 raise_for_status(0 方 法 ， 如 果 下 载 发 生 问 题 ， 就 抛 出 异常 ， 并 终止 
程序 。 人 否则， 利用 下 载 页 面 的 文本 创建 一 个 BeautifulSoup 对 象 。 





第 3 步 : 寻找 和 下 载 漫画 图 像 
让 你 的 代码 看 起 来 像 这 样 ; 





#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 


import requests, os, bs4 


--snip 


# Find the URL of the comic image. 


comicElem = soup.select('#comic img' ) 


if comicElem == []: 


print('Could not find comic image. ') 


else: 


comicUrl = 'http:' comicElem[@].get('src') 


# Download the image. 


print('Downloading image %s...' % (comicUr1)) 


res = requests. get(comicUr1) 


res.raise for_status() 


# TODO: Save the image to ./xkcd. 


# TODO: Get the Prev button's url. 


print('Done.') 





用 开发 者 工具 检查 XKCD 主 页 后 ， 你 知道 漫画 图 像 的 < img> 元 素 是 
在 一 个 < div> 元 素 中 ， 它 融 有 的 id 属 性 设置 为 comic。 所 以 选择 器 '#comic 
img' 将 从 BeautifulSoup 对 象 中 选 出 正确 的 < img> 元 素 。 


有 一 些 XKCD 页 面 有 特殊 的 内 容 ， 不 是 一 个 简单 的 图 像 文件 。 这 没 
问题 ， 跳 过 它们 就 好 了 。 如 果 选 择 器 没有 找到 任何 元 素 ， 那 么 
soup.select(‘#comic img") 将 返回 一 个 空 的 列表 。 出 现 这 种 情况 时 ， 程 序 将 
打印 一 条 错误 消息 ， 不 下 载 图 像 ， 继 续 执行 。 


人 否则， 选择 此 将 返回 一 个 列表 ， 包 含 一 个 < img> 元 素 。 可 以 从 这 个 


< img> 元 素 中 取得 src 属 性 ， 将 它 传递 给 requests.get()， 下 载 这 个 漫画 的 
图 像 文 件 。 


第 4 步 : 保存 图 像 ， 找 到 前 一 张 漫 画 
让 你 的 代码 看 起 来 像 这 样 : 











#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 


import requests, os, bs4 


--snip 


# Save the image to ./xkcd. 


imageFile = open(os.path.join('xkcd', os.path.basename(comicUr1)), 


for chunk in res.iter_content(1000@Q): 


imageFile.write(chunk) 


imageFile.close() 


# Get the Prev button's url. 


prevLink = soup.select('a[rel="prev"]')[@] 


url = 'http://xkcd.com' + prevLink.get('href' ) 


print('Done.') 


这 时 ， 漫 画 的 图 像 文件 保存 在 变量 res 中 。 你 需要 将 图 像 数 据 写 入 硬 
盘 的 文件 。 


你 需要 为 本 地 图 像 文 件 准 备 一 个 文件 名 ， 传 递 给 open(). comicUrl 
的 值 类 似 'http://imgs.xkcd.com/comics/heartbleed_explanation.png'。 你 可 
能 注意 到 ， 它 看 起 来 很 像 文 件 路 径 。 实 际 上 ， 调 用 os.path.basename(O) 时 
传 入 comicUrl， 它 只 返回 URL 的 最 后 音 
分 : 'heartbleed_explanation.png'。 你 可 以 用 它 作 为 文件 名 ， 将 图 像 保 存 
到 人 硬盘。 用 os.path.join0 连 接 这 个 名 称 和 xkcd 文 件 夹 的 名 称 ， 这 样 程序 
就 会 在 Windows 下 使 用 倒 斜 杜 O) ， 在 OS X 和 Linux 下 使 用 斜 枉 O) 。 
Fares ase 束 可 以 调用 open()， 用 "wb' 模 式 打 开 一 个 新 文 





回忆 一 下 本 章 早 些 时 候 ， 保 存 利用 Requests 下 载 的 文件 时 ， 你 需要 
循环 处 理 iter_content() 方 法 的 返回 值 。for 循 环 中 的 代码 将 一 段 图 像 数 据 
eal (每 次 最 多 10 万 字 节 ) ， 然 后 关闭 该 文件 。 图 像 现 在 保存 到 便 


然后 ， 选 择 器 'a[rel="prev"] 识 别 出 rel 属 性 设置 为 prev 的 < a> 元 素 ， 
利用 这 个 < a> 元 素 的 href 属 性 ， 取 得 前 一 张 漫画 的 URL， 将 它 保存 在 url 
中 。 然 后 while 循 环 针对 这 张 漫画 ， 再 次 开始 整个 下 载 过 程 。 


这 个 程序 的 输出 看 起 来 像 这 样 : 











Downloading page http://xkcd.com... 

Downloading image http://imgs.xkcd.com/comics/phone alarm.png... 
Downloading page http://xkcd.com/1358/... 

Downloading image http://imgs.xkcd.com/comics/nro.png... 

Downloading page http://xkcd.com/1357/... 

Downloading image http://imgs.xkcd.com/comics/free_speech.png... 
Downloading page http://xkcd.com/1356/... 

Downloading image http://imgs.xkcd.com/comics/orbital_mechanics.png... 
Downloading page http://xkcd.com/1355/... 

Downloading image http://imgs.xkcd.com/comics/airplane_message.png... 
Downloading page http://xkcd.com/1354/... 

Downloading image http://imgs.xkcd.com/comics/heartbleed_explanation.png... 
--snip 





这 个 项 目 是 一 个 很 好 的 例子 ， 说 明 程序 可 以 自动 顺 着 链接 ， 从 网 络 
上 抓 取 大 量 的 数据 。 你 可 以 从 Beautiful Soup 的 文档 了 解 它 的 更 多 功能 : 


http://www. crummy.com/ software/BeautifulSoup/bs4/doc/. 
第 5 步 : 类 似 程 序 的 想法 


下 载 页 面 并 追踪 链接 ， 是 许多 网 络 爬 虫 程序 的 基础 。 类 似 的 程序 也 
可 以 做 下 面 的 事情 : 


。 顺 着 网 站 的 所 有 链接 ， 备 份 整 个 网 站 。 
。 拷贝 一 个 论坛 的 所 有 信息 。 
。 复制 一 个 在 线 商 店 中 所 有 产品 的 目录 。 


requests 和 BeautifulSoup 模块 很 了 不 起 ， 只 要 你 能 弄 清楚 需要 传递 
给 requests.getO0 的 URL。 但 是 ， 有 时 候 这 并 不 容易 找到 。 或 者 ， 你 希望 
编程 浏览 的 网 站 可 能 要 求 你 先 登 录 。selenium 模块 将 让 你 的 程序 具有 执 
行 这 种 复杂 任务 的 能 





11.8 用 selenium 模 块 控制 浏览 器 


selenium 模 块 让 Python 直 接 控 制 浏览 器 ， 实 际 点 击 链接 ， 填 写 登 录 
信息 ， 几 乎 束 像 是 有 一 个 人 类 用 户 在 与 页 面 交 互 。 与 Requests 和 
Beautiful Soup 相 比 ，Selenium 人 允许 你 用 高 级 得 多 的 方式 与 网 页 交互 。 但 
因为 它 启动 了 Web 浏 览 器 ， 假 如 你 只 是 想 从 网 络 上 下 载 一 些 文件 ， 会 有 
点 慢 ， 并 且 难 以 在 后 人 台 运 行 。 


附录 A 有 安装 第 三 方 模块 的 详细 步 又。 








11.8.1 启动 selenium 控 制 的 浏览 器 


对 于 这 些 例 子 ， 你 需要 FireFox 浏 览 器 。 它 将 成 为 你 控制 的 浏览 右 。 
如 果 你 还 没有 FireFox， 可 以 从 http://getfirefox.com/ 人 免费 下 载 它 。 


导入 selenium 的 模块 需要 一 点 技巧 。 不 是 import selenium， 而 是 要 运 
行 from selenium import webdriver (为 什么 selenium 模 块 要 使 用 这 种 方式 
设置 ? 答案 超出 了 本 书 的 范围 ) 。 之 后 ， 你 可 以 用 selenium 启 动 FireFox 
浏览 器 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> from selenium import webdriver 


>>> browser = webdriver.Firefox() 


>>> type(browser) 


< class 'selenium.webdriver.firefox.webdriver.WebDriver '> 
>>> browser. get('http://inventwithpython.com' ) 





你 会 注意 到 ， 当 webdriver.Firefox()#% ia AA, FireFox 浏览 器 启动 
了 。 对 值 webdriver.Firefox() 调 用 type0， 揭 示 它 具有 WebDriver 数据 类 


型 。 调 用 browser. get(‘http: //inventwithpython. com'") 将 浏览 器 指 癌 
sri RP ey 。 浏 览 器 应 该 看 起 来 如 图 11-7 所 示 。 
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图 11-7 在 IDLE 中 调用 webdriver.Firefox() 和 get() 后 ，FireFox 浏 览 器 出 现 了 
11.8.2 在 页 面 中 寻找 元 素 


WebDriver 对 象 有 好 几 种 方法 ， 用 于 在 页 面 中 寻找 元 素 。 它 们 被 分 
成 findelement 和 find elements 方 法 。findelement 方法 返回 一 个 WebElemeni 
对 象 ， 代 表 页 面 中 匹配 查询 的 第 一 个 元 素 。find elements 方 法 返回 
WebElement_* 对 象 的 列表 ， 包 含 页 面 中 所 有 匹配 的 元 素 。 


表 11-3 展 示 了 findelement 和 find elements 方 法 的 几 个 例子 ， 它 们 在 变 
量 browser 中 保存 的 WebDriver 对 象 上 调用 。 


表 11-3 selenium 和 的 WebDriver 方 法 ， 用 于 寻找 元 素 














browser.find_element_by_class_name(name ) 使 月 
browser.find_elements_by_class_name(name ) 





CSS 类 name 的 元 素 


browser.find_element_by_css_selector(selector ) 4 一 
browser.find_elements_by_css_selector(selector ) ULAECSS selector 的 元 素 


browser.find_element_by_id(id ) oe _ 
browser.find_elements_by_id(id ) 属性 值 的 元 素 











browser.find_element_by_link_text(text ) = E AHE p ; = 
browser.find_elements_by_link_text(text ) 完全 匹配 提供 的 text 的 < a> 元 系 





browser.find_element_by_partial_link_text(text ) Ax tH tk te ; — 
browser.find_elements_by_partial_link_text(text ) 包 合 提 供 的 text 的 < a> Uz 





browser.find_element_by_name(name ) 
browser.find_elements_by_name(name ) 








browser.find_element_by_tag_name(name ) 匹配 标签 name 的 元 素 (大 小 写 
browser.find_elements_by_tag_name(name ) 无 关 ，< a> 元 素 匹 配 'a 和 'A) 








除了 * by _tag_name0 方 法 ， 所 有 方法 的 参数 都 是 区 分 大 小 写 的 。 如 
果 页 面 上 没有 元 素 逻 配 该 方法 要 查找 的 元 素 ，selenium 模 块 就 会 抛 出 
NoSuchElement 异 常 。 如 果 你 不 希望 这 个 异常 让 程序 崩 尝 ， 就 在 代码 中 
添加 try 和 except 语 人 句 。 


一 旦 有 了 WebElement 对 象 ， 就 可 以 读 取 表 11-4 中 的 属性 ， 或 调用 其 
中 的 方法 ， 了 解 它 的 更 多 功能 。 


表 11-4 WebElement 的 属性 和 方法 

















0 该 元 素 name 属 性 的 值 


该 元 素 内 的 文本 ， 例 如 < span>hello< /span> 中 的 hello' 
对 于 文本 字段 或 文本 区 域 元 素 ， 清 除 其 中 输入 的 文本 
is_displayed() 如 果 访 元素 可 见 ， 返 回 True， 人 否则 返回 False 




















is_enabled() 对 于 输入 元 素 ， 如 果 该 元 素 启 用 ， 返 回 True， 和 否则 返回 


对 于 复 选 框 或 单 选 框 元 素 ， 如 果 该 元 素 被 选中 ， 选 择 True， 否 则 
is_selected() ‘ 

返回 False 
fein fa 包含 键 x 和 'Y'， 表 示 该 元 素 在 页 面 上 的 位 置 


例如 ， 打 开 一 个 新 的 文件 编辑 器 ， 输 入 以 下 程序 : 












































from selenium import webdriver 
browser = webdriver.Firefox() 
browser.get('http://inventwithpython.com' ) 
try: 
elem = browser.find_element_by_class_name(‘'bookcover' ) 
print('Found < %s> element with that class name!' % (elem.tag name) ) 


except: 
print('Was not able to find an element with that name.') 





这 里 我 们 打开 FireFox， 让 它 指 同 一 个 URL。 在 这 个 页 面 上 ， 我 们 试 
图 找到 带 有 类 名 'bookcover' 的 元 素 。 如 果 找 到 这 样 的 元 素 ， 我 们 就 用 
oe DUR YC FREER ICR, WF 
H \ 同 aA. 


这 个 程序 的 输出 如 下 : 


Found < img> element with that class name! 





我 们 发 现 了 一 个 元 素 带 有 类 名 "bookcover， 它 的 标签 名 是 'img'。 
11.8.3 反击 页 面 


findelement 和 find elements 方 法 返回 的 WebElement 对 象 有 一 个 dlick() 
方法 ， 模 拟 鼠 标 在 该 元 素 上 点 击 。 这 个 方法 可 以 用 于 链接 跳 转 ， 选 择 单 
选 按 钮 ， 点 击 提交 按钮 ， 或 者 触发 该 元 素 被 鼠标 点 击 时 发 生 的 任何 事 
情 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 














>>> from selenium import webdriver 


>>> browser = webdriver.Firefox() 


>>> browser.get('http://inventwithpython.com') 


>>> linkElem = browser.find element by link text('Read It Online') 


>>> type(linkElem) 


< class 'selenium.webdriver.remote.webelement.WebElement' > 
>>> linkElem.click() # follows the "Read It Online" link 





这 上 段 程序 打开 FireFox， 指 疝 http://inventwithpython.com/， 取 得 < a> 
元 素 的 WebElement 对 象 ， 它 的 文本 是 “Read It Online”， 然 后 模拟 点 击 这 





个 元 素 。 就 像 你 上 自己 点 击 这 个 链接 一 样 ， 浏 览 器 将 跳 转 到 这 个 链接 。 
11.8.4 填写 并 提交 表单 
回 Web 页 面 的 文本 字段 发 送 击 键 ， 只 要 找到 那个 文本 字段 的 < 


input> 或 < textarea> 元 素 ， 然 后 调用 send_keys(0) 方 法 。 例 如 ， 在 交互 式 环 
境 中 输入 以 下 代码 : 





<code>>>> from selenium import webdriver 


>>> browser = webdriver.Firefox() 


>>> browser.get('http://gmail.com') 


>>> emailElem = browser.find element by _ id('Email') 


>>> emailElem.send_keys('not_my_real_email@gmail.com' ) 


>>> passwordElem = browser.find_element_by_id('Passwd' ) 


>>> passwordElem.send_keys('12345' ) 


>>> passwordElem. submit () 





只 要 Gmail 没有 在 本 书 出 版 后 改变 Username 和 Password 文 本 字段 的 
id， 上 面 的 代码 就 会 用 提供 的 文本 填写 这 些 文本 字段 (你 总 是 可 以 用 浏 
览 器 的 开发 者 工具 验证 id) 。 在 任何 元 素 上 调用 submit() 方 法 ， 都 等 同 于 
点 击 该 元 素 所 在 表单 的 Submit 按 钮 (你 可 以 很 容易 地 调用 
emailElem.submit()， 代 码 所 做 的 事情 一 样 〉。 


11.8.5 发 送 特殊 键 
selenium 有 一 个 模块 ， 针 对 不 能 用 字符 串 值 输入 的 键盘 击 键 。 它 的 


功能 非常 类 似 于 转 义 字符 。 这 些 值 保存 在 
selenium.webdriver.common.keys 模 块 的 属性 中 。 由 于 这 个 模块 名 非常 
长 ， 所 以 在 程序 顶部 运行 from selenium.webdriver. common.keys import 
Keys 就 比较 容易 。 如 果 这 么 做 ， 原 来 需要 写 from selenium. 
webdriver.common.keys 的 地 方 ， 就 只 要 写 Keys。 表 11-5 列 出 了 常用 的 
Keys 变 量 。 























表 11-5 selenium.webdriver.common.keys 模 块 中 常用 的 变量 
含义 


me 
Keys. DOWN, Keys.UP, Keys.LEFT,Keys.RIGHT | 键盘 箭头 键 
Keys.ENTER, Keys.RETURN 回 车 和 换行 键 


Keys.HOME, Keys.END， Home 键 、End 键 、PageUp 键 和 Page 
Keys.PAGE_DOWN,Keys.PAGE_UP Down 键 








Keys.ESCAPE eH 
4 a H ae 
Keys.BACK_SPACE,Keys.DELETE Ese, Backspacetil 7 EH 





Keys.F1, Keys.F2,..., Keys.F12 键盘 顶部 的 F1 到 F12 键 
Keys.TAB Tabi 


例如 ， 如 果 光 标 当 前 不 在 文本 字段 中 ， 按 下 home 和 end 键 ， 将 使 浏 
览 喜 滚动 到 页 面 的 顶部 或 底部 。 在 交互 式 环 境 中 输入 以 下 代码 ， 注 意 
send_keysO 调 用 是 如 何 滚 动 页 面 的 : 














>>> from selenium import webdriver 


>>> from selenium.webdriver.common.keys import Keys 


>>> browser = webdriver.Firefox() 


>>> browser. get('http://nostarch.com' ) 


>>> htmlElem = browser.find_element_by_tag_name('html1' ) 


>>> htmlElem.send_keys(Keys. END) # scrolls to bottom 


>>> htmlElem.send_keys (Keys . HOME) # scrolls to top 








<html> 标 签 是 HIML 文 件 中 的 基本 标签 : HTML 文 件 的 完整 内 容 包 
含 在 < html> 和 < /html> 标 签 之 内 。 调 用 
browser.find_element_by_tag_name('html'") 是 像 一 般 Web 页 面 发 送 按键 的 


好 地 方 。 当 你 深 动 到 该 页 的 底部 ， 新 的 内 容 就 会 加 载 ， 这 可 能 会 有 用 。 
11.8.6 点 击 浏览 器 按钮 
利用 以 下 的 方法 ，selenium 也 可 以 模拟 点 击 各 种 浏览 器 按钮 : 


browser.back() 点 击 “ 返 回 ” 按 钮 。 





browser.forward() 点 击 “ 前 进 ” 按 钮 。 
browser.refresh() 点 击 “ 刷 新 ”按钮 。 
browser.quit0 点 击 “ 关 闭 窗口 ”按钮 。 
11.8.7 关于 selenium 的 更 多 信息 
selenium 能 做 的 事 远 远 超 出 了 这 里 描述 的 功能 。 它 可 以 修改 浏览 器 


的 cookie， 截 取 页 面 快照 ， 运 行 定制 的 JavaScript。 要 了 解 这 些 功能 的 更 
多 信息 ， 请 参考 文档 : http://selenium-python.readthedocs.org/。 





11.9 小 结 


大 多 数 无 聊 的 任务 并 不 限于 操作 你 计算 机 中 的 文件 。 能 够 编程 下 载 
网 页 ， 可 以 让 你 的 程序 扩展 到 因特网 。requests 模 块 让 下 载 变 得 很 简 
单 ， 加 上 HTML 的 概念 和 选择 器 的 基本 知识 ， 你 就 可 以 利用 
BeautifulSoup 模 块 ， 解 析 下 载 的 网 页 。 


但 要 全 面 自动 化 所 有 和 针对 网 页 的 任务 ， 你 需要 利用 selenium 模 块 ， 
直接 控制 Web 浏 览 嚣 。selenium 模 块 将 允许 你 自动 登录 到 网 站 ， 填 写 表 
单 。 因 为 Web 浏 览 器 是 在 因特网 上 收发 信息 的 最 常见 方式 ， 所 以 这 是 程 
序 员 工具 箱 中 一 件 了 不 起 的 工具 。 























11.10 习题 


1. 简单 描述 webbrowser、requests、BeautifulSoup 和 selenium 模 块 之 
间 的 不 同 。 


2. requests.getO 返 回 哪 种 类 型 的 对 象 ? 如 何以 字符 串 的 方式 访问 下 
载 的 内 容 ? 


3. 哪个 Requests 方 法 检查 下 载 是 否 成 功 ? 

4. 如 何 取得 Requests 响 应 的 HTTP 状 态 码 ? 

5. 如 何 将 Requests 响 应 保存 到 文件 ? 

6. 要 打开 浏览 器 的 开发 者 工具 ， 快 捷 键 是 什么 ? 

7. 在 开发 者 工具 中 ， 如 何 查 看 页 面 上 特定 元 素 的 HTML? 

8. 要 找到 id 属 性 为 main 的 元 素 ，CSS 选 择 器 的 字符 串 是 什么 ? 
9. 要 找到 CSS 类 为 highlight 的 元 了 素 ，CSS 选 择 器 的 字符 串 是 什么 ? 


10. 要 找到 一 个 < div> tá HAHI div> Jt, CSS 选择 器 的 字 
符 串 是 什么 ? 

11. 要 找到 一 个 < button> 元 素 ， 它 的 value 属 性 被 设置 为 favorite， 
CSS 选 择 器 的 字符 串 是 什么 ? 


12. 假定 你 有 一 个 Beautiful Soup 的 Tag 对 象 傈 存在 变量 spam 中 ， 针 
对 的 元 素 是 < div>Hello world!< /div>。 如 何 从 这 个 Tag 对 象 中 取得 字符 
串 'Hello world!'? 


13. 如 何 将 一 个 Beautiful Soup 的 Tag 对 象 的 所 有 属性 保存 到 变量 
linkElem 中 ? 


14. 运行 import selenium 没 有 效果 。 如 何 正确 地 导入 selenium 模 块 ? 





15. findelement 和 find elements 方 法 之 间 的 区 别 是 什么 ? 
16. Selenium 的 WebElement 对 象 有 哪些 方法 来 模拟 鼠标 点 击 和 键盘 


17. 你 可 以 在 Submit 按 钮 的 WebElement 对 象 上 调用 
send_keys(Keys.ENTER)， 但 利用 selenium， 还 有 什么 更 容易 的 方法 提交 


表单 ? 

18. 利用 selenium 如 何 模拟 点 击 浏 览 嚣 的“ 前进” “返回 ?和 “ 刷 
新 ”按钮 ? 
11.11 实践 项 目 

作为 实践 ， 编 程 完成 下 列 任务 。 
11.11.1 命令 行 邮件 程序 

编写 一 个 程序 ， 通 过 命令 行 接受 电子 邮件 地 址 和 文本 字符 串 。 然 后 
利用 selenium 登 录 到 你 的 邮件 账号 ， 将 该 字符 串 作 为 邮件 ， 发 送 到 提供 
的 地 址 (你 也 许 希 望 为 这 个 程序 建立 一 个 独立 的 邮件 账号 〉。 


这 是 为 程序 添加 通知 功能 的 一 种 好 方法 。 你 也 可 以 编写 类 似 的 程 
序 ， 从 Facebook 或 Twitter 账号 发 送 消息 。 


11.11.2 图 像 网 站 下 载 


编写 一 个 程序 ， 访 问 图 像 共 享 网 站 ， 如 Flickr 或 Ingur， 碍 找 一 个 类 
型 的 照片 ， 然 后 下 载 所 有 查询 结果 的 图 像 。 可 以 编写 一 个 程序 ， 访 问 任 
何 具 有 查找 功能 的 图 像 网 站 。 











11.11.3 2048 


2048 是 一 个 简单 的 游戏 ， 通 过 箭头 同上 、 下 、 左 、 右 移动 滑 块 ， 让 
滑 块 合 并 。 实 际 上 ， 你 可 以 通过 一 允 一 pee Eas, isi 2 
式 ， 获 得 相当 高 的 分 数 。 编 写 一 个 程序 ， 打 开 
https://gabrielecirulli.github.io/2048/ 上 的 游戏 ， 不 断 发 送 上 、 右 、 下 、 左 
按键 ， 上 自动 玩 游戏 。 


11.11.4 链接 验证 
编写 一 个 程序 ， 对 给 定 的 网 页 URL， 下 载 该 页 面 所 有 链接 的 页 面 。 


程序 应 该 标记 出 所 有 具有 404“Not Found” 状 态 码 的 页 面 ， 将 它们 作为 坏 
链接 输出 。 








第 12 章 ”处理 Excel 电 子 表 格 


Excel 是 Windows 环 境 下 流行 的 、 强 大 的 电子 表格 应 用 。openpyxl 模 
块 让 Python 程序 能 读 取 和 修改 Excel 电 子 表格 文件 。 例 如 ， 可 能 有 一 个 无 
聊 的 任务 ， 需 要 从 一 个 电子 表格 拷贝 一 些 数据 ， 粘 贴 到 另 一 个 电子 表格 
中 。 或 者 可 能 需要 从 几 千 行 中 挑选 几 行 ， 根 据 某 种 条 件 稍 作 修 改 。 或 者 
需要 查看 几 百 份 部 门 预 算 电 子 表格 ， 寻 找 其 中 的 赤字 。 正 是 这 种 无 聊 无 
脑 的 电子 表格 任务 ， 可 以 通过 Python 来 完成 。 


LibreOffice Calc 和 OpenOffice Calc 都 能 处 理 Excel 的 电子 表格 文件 格 
式 ， 这 意味 着 openpyxl 模块 也 能 处 理 来 自 这 些 应 用 程序 的 电子 表格 。 
你 可 以 从 https://www. libreoffice.org/ 和 http:/www.openoffice.org/ 下 载 这 
些 软件 。 即 使 你 的 计算 机 上 已 经 安装 了 Excel， 可 能 也 会 发 现 这 些 程序 
更 容易 使 用 。 但 是 ， 本 章 中 的 截屏 图 都 来 自 于 Windows 7 上 的 Excel 
2010. 











12.1 Excel 文 档 


首先 ， 让 我 们 来 看 一 些 基 本 定义 。 一 个 Excel 电 子 表格 文档 称 为 一 
个 工作 敌 。 一 个 工作 敌 保 存在 扩展 名 为 .xlsx 的 文件 中 。 每 个 工作 憩 可 以 
包含 多 个 表 (也 称 为 工作 表 )〉 。 用 户 当 前 但 看 的 表 〈 或 天 闭 Excel 前 最 
后 查看 的 表 ) ， 称 为 活动 表 。 


每 个 表 都 有 一 些 列 《〈“ 地 址 是 从 A 开 始 的 字母 )》 和 一 些 行 《地 址 是 从 
1 开始 的 数字 ) 。 在 特定 行 和 列 的 方 格 称 为 单元 格 。 每 个 单元 格 都 包含 
一 个 数字 或 文本 值 。 单 元 格 形成 的 网 格 和 数据 构成 了 表 。 








12.2 安装 openpyxl 模 块 
Python 没 有 自 带 openpyXxl， 所 以 必须 安装 。 按 照 附录 人 A 中 安装 第 三 


方 模块 的 指令 ， 模 块 的 名 称 是 openpyxl。 要 测试 它 是 否 安装 正确 ， 就 在 
交互 式 环 境 中 输入 以 下 代码 : 


>>> import openpyxl 


如 采访 模块 正确 安装 ， 这 应 该 不 会 产生 错误 消 轧 。 记 得 在 运行 本 章 
的 交互 式 环境 例子 之 前 ， 要 导入 openpyxl 模块 ， 和 否则 会 得 到 错误 ， 
NameError: name 'openpyxl'is not defined. 


本 书 介 绍 了 openpyXl 的 2.1.4 版 ， 但 OpenPyXL 团 队 会 经 常 发 布 新 版 
本 。 不 过 不 用 担心 ， 新 版 本 应 该 在 相当 长 的 时 间 内 同 后 兼容 ， 文 持 本 书 
中 使 用 的 指令 。 如 果 你 有 新 版 本 ， 想 看 看 它 提 供 了 什么 新 功能 ， 可 以 查 
看 OpenPyXL 的 完整 文档 : http://openpyxl.readthedocs.org/ 。 





12.3 读 取 Excel 文 档 


本 章 的 例子 将 使 用 一 个 电子 表格 example.xlsx， 它 保存 在 根 文件 夹 
中 。 你 可 以 自己 创建 这 个 电子 文档 ， 或 从 
http://nostarch.com/automatestuff/ 下 载 。 图 12-1 展 示 了 3 个 默认 的 表 ， 名 
为 Sheet1、Sheet2 和 Sheet3， 这 是 Excel 自 动 为 新 工作 筹 提供 的 (不 同 操 
作 系 统 和 电子 表格 程序 ， 提 供 的 默认 表 个 数 可 能 会 不 同 ) 。 
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图 12-1 工作 短 中 表 的 选项 卡 在 Excel 的 左下 角 


示例 文件 中 的 Sheet 1 应 该 看 起 来 像 表 12-1〈 如 果 你 没有 从 网 站 下 
载 example.xlsx， 吏 应 该 在 工作 表 中 目 己 输入 这 些 数据 ) 。 











表 12-1 example.xlsx 电 子 表格 
C 
emae oo 


既然 有 了 示例 电子 表格 ， 就 来 看 看 如 何 用 openpyxl 模 块 来 操作 它 。 





12.3.1 用 openpyxl 模 块 打开 Excel 文 档 


在 导入 openpyXl 模 块 后 ， 就 可 以 使 用 openpyxlload_workbookO) 函 
数 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> import openpyxl 


>>> wb = openpyxl.load_workbook( 'example.x1sx' ) 


>>> type(wb) 


< class 'openpyxl.workbook.workbook .Workbook ' > 





openpyXxl.load_workbook() 函 数 接受 文件 名 ， 返 回 一 个 workbook 数 据 
类 型 的 值 。 这 个 workbook 对 象 代表 这 个 Excel 文 件 ， 有 点 类 似 File 对 象 代 


表 一 个 打开 的 文本 文件 。 





要 记 住 ，example.xlsx 需 要 在 当前 工作 目录 ， 你 才能 处 理 它 。 可 以 
导入 0s， 使 用 函数 os.getcewd() 弄 清楚 当前 工作 目录 是 什么 ， 并 使 用 
os.chdir() 改 变 当 前 工作 目录 。 


12.3.2 从 工作 筹 中 取得 工作 表 


调用 get_sheet_names() 方 法 可 以 取得 工作 夭 中 所 有 表 名 的 列表 。 在 
交互 式 环 境 中 输入 以 下 代码 : 











>>> import openpyxl 


>>> wb = openpyxl.load_workbook( 'example.x1sx' ) 


>>> wb.get_sheet_names() 


['Sheet1', 'Sheet2', 'Sheet3'] 
>>> sheet = wb.get_sheet_by_name('Sheet3' ) 


>>> sheet 


< Worksheet "Sheet3"> 
>>> type(sheet) 


< class 'openpyxl.worksheet.worksheet.Worksheet > 
>>> sheet.title 


"Sheet3' 
>>> anotherSheet = wb.get_active_sheet() 


>>> anotherSheet 


< Worksheet "Sheet1"> 








每 个 表 由 一 个 Worksheet 对 象 表 示 ， 可 以 通过 向 工作 敌 方 法 
get_sheet_by_name() 传 递 表 名 字符 串 获 得 。 最 后 ， 可 以 调用 Workbook 对 
象 的 get_active_sheet(0 方 法 ， 取 得 工作 短 的 活动 表 。 活 动 表 是 工作 短 在 
Excel 中 打开 时 出 现 的 工作 表 。 在 取得 Worksheet 对 象 后 ， 可 以 通过 ftitle 属 
性 取得 它 的 名 称 。 


12.3.3 从 表 中 取得 单元 格 


有 了 Worksheet 对 象 后 ， 就 可 以 按 名 字 访 问 Cel 对 象 。 在 交互 式 环 境 
中 输入 以 下 代码 : 











>>> import openpyxl 


>>> wb = openpyxl.load_workbook( 'example.x1sx' ) 


>>> sheet = wb.get_sheet_by_name('Sheet1' ) 


>>> sheet['A1'] 


< Cell Sheet1.A1> 
>>> sheet['A1'].value 


datetime.datetime(2015, 4, 5, 13, 34, 2) 
>>> c = sheet['B1'] 


>>> c.value 


"Apples' 
>>> "Row ' + str(c.row) + ', Column ' + c.column + ' is ' + c.value 


"Row 1, Column B is Apples' 
>>> "Cell ' + c.coordinate + ' is ' + c.value 


"Cell B1 is Apples' 
>>> sheet['C1'].value 


73 





Cell 对 象 有 一 个 value 属 性 ， 不 出 意外 ， 它 包含 这 个 单元 格 中 保存 的 


值 。Cell 对 象 也 有 row、column 和 coordinate 属 性 ， 提 供 该 单元 格 的 位 置 
= 


Ho 


这 里 ， 访 问 单元 格 B1 的 Cell 对 象 的 value 属 性 ， 我 们 得 到 字符 
串 'Apples'。row 属 性 给 出 的 是 整数 1，column 属 性 给 出 的 是 'B'， 
coordinate 属 性 给 出 的 是 'B1'。 


openpyxl 模 块 将 目 动 解释 列 A 中 的 日 期 ， 将 它们 返回 为 datetime 值 ， 
而 不 是 字符 串 。datetime 数 据 类 型 将 在 第 16 章 中 进一步 解释 。 


用 字母 来 指定 列 ， 这 在 程序 中 可 能 有 点 奇怪 ， 特 别 是 在 Z 列 之 后 ， 
列 开 时 使 用 两 个 字母 : AA、AB、AC 等 。 作 为 蔡 代 ， 在 调用 表 的 cell0 
方法 时 ， 可 以 传 入 整数 作为 row 和 column 关 键 字 参数 ， 也 可 以 得 到 一 个 
单元 格 。 第 一 行 或 第 一 列 的 整数 是 1， 不 是 0。 输 入 以 下 代码 ， 继 续 交 互 
式 环 境 的 例子 : 





>>> sheet.cell(row=1, column=2) 


< Cell Sheet1.B1> 
>>> sheet.cell(row=1, column=2).value 


"Apples' 
>>> for i in range(1, 8, 2): 


print(i, sheet.cell(row=i, column=2).value) 


1 Apples 

3 Pears 

5 Apples 

7 Strawberries 





可 以 看 到 ， 使 用 表 的 cell0 方 法 ， 传 入 row=1 和 column=2， 将 得 到 单 
元 格 B1 的 Cell 对 象 ， 就 像 指 定 sheet['B1] 一 样 。 然 后 ， 利 用 cell0 方 法 和 它 
的 关键 字 参 数 ， 就 可 以 编写 for 循 环 ， 打 印 出 一 系列 单元 格 的 值 。 


假定 你 想 顺 着 B 列 ， 打 印 出 所 有 奇数 行 单元 格 的 值 。 通 过 传 入 2 作为 
range() 阔 数 的 “ 步 长 ”参数 ， 可 以 取得 每 隔 一 行 的 单元 格 〈 在 这 里 就 是 所 
有 和 奇数 行 )。for 循 环 的 变量 被 传递 作为 cell0) 方 法 的 row 关 键 字 参数 ， 而 
column 关 键 字 参 数 吕 是 取 2。 请 注音 传 入 的 是 整数 >， 而 不 是 字符 串 'B'。 


可 以 通过 Worksheet 对 象 的 get_highest_row() 和 get_highest_column() 
方法 ， 确 定 表 的 大 小 。 在 交互 式 环境 中 输入 以 下 代码 : 








>>> import openpyxl 


>>> wb = openpyxl.load_workbook( 'example.x1sx' ) 


>>> sheet = wb.get_sheet_by_name('Sheet1' ) 


>>> sheet. get_highest_row() 


7 
>>> sheet. get_highest_column() 


请 注意 ，get_highest_column() 方 法 返回 一 个 整数 ， 而 不 是 Excel 中 出 
现 的 字母 。 


12.3.4 列 字 母 和 数字 之 间 的 转换 


要 从 字母 转换 到 数字 ， 就 调用 
openpyxl.cell.column_index_from_string(0) 消 数 。 要 从 数字 转换 到 字母 ， 
就 调用 openpyxl.cell.get _column_jletterO 函 数 。 在 交互 式 环境 中 输入 以 下 
代码 : 





>>> import openpyxl 


>>> from openpyxl.cell import get_column_letter, column_index_from_string 


>>> get_column_letter(1) 


"A' 
>>> get_column_letter(2 


) 
“B~ 
>>> get_column_letter(27) 


"AA' 
>>> get_column_letter (900) 


' AHP ' 
>>> wb = openpyxl.load_workbook( 'example.x1sx' ) 


>>> sheet = wb.get_sheet_by_name('Sheet1') 


>>> get_column_letter(sheet.get_highest_column()) 


DEA 
>>> column_index_from_string('A') 


1 
>>> column_index_from_string('AA') 


27 





在 从 openpyxl.cell 模 块 引入 这 两 个 函数 后 ， 可 以 调用 
get_column_letter()， 传 入 像 27 这 样 的 整数 ， 弄 清楚 第 27 列 的 字母 是 什 
么 。 阔 数 column_index_string0) 做 的 事情 相反 : 传 入 一 列 的 字母 名 称 ， 它 
告诉 你 该 列 的 数字 是 什么 。 要 使 用 这 些 函 数 ， 不 必 加 载 一 个 工作 夭 。 如 
果 你 愿意 ， 可 以 加 载 一 个 工作 籍 ， 取 得 Worksheet 对 象 ， 并 调用 
Worksheet 对 象 的 方法 ， 如 get_highest_column(O0， 来 取得 一 个 整数 。 然 
后 ， 将 该 整数 传递 给 get_column_letter()。 


12.3.5 从 表 中 取得 行 和 列 
可 以 将 Worksheet 对 象 切片 ， 取 得 电子 表格 中 一 行 、 一 列 或 一 个 矩 


形 区 域 中 的 所 有 Cell 对 象 。 然 后 可 以 循环 过 有 历 这 个 切片 中 的 所 有 单元 
格 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> import openpyxl 


>>> wb = openpyxl.load_workbook( 'example.x1sx' ) 


>>> sheet = wb.get_sheet_by_name('Sheet1' ) 


>>> tuple(sheet['A1':'C3']) 


((< Cell Sheet1.A1>, < Cell Sheet1.B1>, < Cell Sheet1.C1>), (< Cell Sheet 
< Cell Sheet1.B2>, < Cell Sheet1.C2>), (< Cell Sheet1.A3>, < Cell Sheet1. 
< Cell Sheet1.C3>)) 

@ >>> for rowOfCellObjects in sheet['A1':'C3']: 


for cel110bj in rowOfCellObjects: 


print(cell0bj.coordinate, cell0bj.value) 


print('--- END OF ROW ---') 


A1 2015-04-05 13:34:02 
B1 Apples 
C1 73 


END OF ROW --- 


A2 2015-04-05 03:41:23 
B2 Cherries 
C2 85 


END OF ROW --- 


A3 2015-04-06 12:46:51 
B3 Pears 
C3 14 


END OF ROW --- 





这 里 ， 我 们 指明 需要 从 Al 到 C3 的 和 窍 形 区 域 中 的 Cel 对 象 ， 得 到 了 一 





个 Generator 对 象 ， 它 包含 该 区 域 中 的 Cell 对 象 。 为 了 帮助 我 们 看 清楚 这 
个 Generator 对 象 ， 可 以 使 用 它 的 tuple(0) 方 法 ， 在 一 个 元 组 中 列 出 它 的 
Cell 对 象 。 


这 个 元 组 包含 3 个 元 组 : 每 个 元 组 代表 1 行 ， 从 指定 区 域 的 顶部 到 底 
部 。 这 3 个 内 部 元 组 中 的 每 一 个 包含 指定 区 域 中 一 行 的 Cell 对 象 ， 从 最 左 
边 的 单元 格 到 最 右边 。 所 以 总 的 来 说 ， 工 作 表 的 这 个 切片 包含 了 从 Al 
“A 从 左上 和 角 的 单元 格 开始 ， 到 右 下 角 的 单元 格 


要 打印 出 这 个 区 域 中 所 有 单元 格 的 值 ， 我 们 使 用 两 个 for 循 环 。 外 层 
for 循 环 遍历 这 个 切片 中 的 每 一 行 @@。 然 后 针对 每 一 行 ， 内 层 for 循 环 遍 
TBAT PARES A CIR 


要 访问 特定 行 或 列 的 单元 格 的 值 ， 也 可 以 利用 Worksheet 对 象 的 
rows 和 columns 属 性 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyxl 








>>> wb = openpyx1.1oad_workbook('example.xlsx') 


>>> sheet = wb.get_active_sheet() 


>>> sheet.columns[1] 


(< Cell Sheet1.B1>, < Cell Sheet1.B2>, < Cell Sheet1.B3>, < Cell Sheet1.B4> 
< Cell Sheet1.B5>, < Cell Sheet1.B6>, < Cell Sheet1.B7>) 
>>> for cellObj in sheet.columns[1]: 


print (cell0bj.value) 


Apples 
Cherries 
Pears 
Oranges 
Apples 
Bananas 
Strawberries 


[L úűů 


利用 Worksheet 对 象 的 rows 属 性 ， 可 以 得 到 一 个 元 组 构成 的 元 组 。 
内 部 的 每 个 元 组 都 代表 1 行 ， 包 含 该 行 中 的 Cell 对 象 。columns 属 性 也 会 
给 你 一 个 元 组 构成 的 元 组 ， 内 部 的 每 个 元 组 都 包含 1 列 中 的 Cell 对 象 。 对 
于 example.xlsx， 因 为 有 7 行 3 列 ，rows 给 出 由 7 个 元 组 构成 的 一 个 元 组 
(每 个 内 部 元 组 包含 3 个 Cell 对 象 )。columns 给 出 由 3 个 元 组 构成 的 一 个 
元 组 (每 个 内 部 元 组 包含 7 个 Cell 对 象 〉。 


要 访问 一 个 特定 的 元 组 ， 可 以 利用 它 在 大 的 元 组 中 的 下 标 。 例 如 ， 
要 得 到 代表 B 列 的 元 组 ， 可 以 用 sheet.columns[1]。 要 得 到 代表 A 列 的 元 
组 ， 可 以 用 sheet.columns[0]。 在 得 到 了 代表 行 或 列 的 元 组 后 ， 可 以 循环 
裔 历 它 的 对 象 ， 打 印 出 它们 的 值 。 

12.3.6 TE, TER, AK 


ERRER, FENETRE R OE XT K 
数 、 方 法 和 数据 类 型 。 


1. 导入 openpyxl 模 块 。 


2. 调用 openpyxl.load_workbookO 函 数 。 








3. 取得 Workbook 对 象 。 

4. 调用 get_active_sheet() 或 get_sheet_by_name() 工 作 禾 方法 。 

5. 取得 Worksheet 对 象 。 

6. 使 用 索引 或 工作 表 的 cell0 方 法 ， 带 上 row 和 column 关 键 字 参 数 。 
7. 取得 Cell 对 象 。 

8. 读 取 Cell 对 象 的 value 属 性 。 


12.4 项 目 : 从 电子 表格 中 读 取 数 据 
假定 你 有 一 张 电子 表格 的 数据 ， 来 自 于 2010 年 美国 人 口 普 查 。 你 有 








一 个 无 聊 的 任务 ， 要 遍历 表 中 的 几 干 行 ， 计 算 总 的 人 口 ， 以 及 每 个 县 的 
普查 区 的 数目 〈 普 查 区 就 是 一 个 地 理 区 域 ， 是 为 人 口 普 查 而 定义 的 ) 。 
每 行 表示 一 个 人 口 普查 区 。 我 们 将 这 个 电子 表格 文件 命名 为 
censuspopdata.xlsx, FJ 以 从 http:/nostarch.cormyautomatestuff/ 下 载 它 。 它 
的 内 容 如 图 12-2 所 示 。 


尽管 Excel 是 要 能 够 计算 多 个 选中 单元 格 的 和 ， 你 仍然 需要 选中 
3000 个 以 上 县 的 单元 格 。 即 使 手工 计算 一 个 县 的 人 口 只 需要 几 秒 钟 ， 整 
张 电 子 表格 也 需要 几 个 小 时 时 间 。 


A B D 
1 (CensusTract State County POP2010 | 
9841 06075010500 CA San Francisco 
9842 "06075010600 CA San Francisco 
9843 ‘06075010700 CA San Francisco 
9844 ‘06075010800 CA San Francisco 


9845 06075010900 CA San Francisco 
9846 ‘06075011000 CA San Francisco 


9847'06075011100 CA San Francisco 
M 4 > >| Population by Census Tract 全 局 





图 12-2 censuspopdata.xlsx 电 子 表格 


在 这 个 项 目 中 ， 你 要 编写 一 个 脚本 ， 从 人 口 普查 电子 表格 文件 中 读 
取 数 据 ， 并 在 几 秒 钟 内 计算 出 每 个 县 的 统计 值 。 


下 面 是 程序 要 做 的 事 : 

从 Excel 电 子 表格 中 读 取 数 据 。 
计算 每 个 县 中 普查 区 的 数目 。 
计算 每 个 县 的 总 人 口 。 

打印 结果 。 

这 意味 着 代码 需要 完成 下 列 任务 : 


e 用 openpyxl 模 块 打 开 Excel 文 档 并 读 取 单元 格 。 
。 计算 所 有 普查 区 和 人 口 数 据 ， 将 它 保 存 到 一 个 数据 结构 中 。 











。 利用 pprint 模 块 ， 将 该 数据 结构 写 入 一 个 扩展 名 为 .py 的 文本 文件 。 
第 1 步 : 读 取 电子 表格 数据 
censuspopdata.xlsx 电 子 表格 中 只 有 一 张 表 ， 名 为 'Population by 
Census Tract'。 每 一 行 都 保存 了 一 个 普查 区 的 数据 。 列 分 别 是 普查 区 的 
编号 CA) ， 州 的 简称 (B) ， 县 的 名 称 〈C) ， 普 碍 区 的 人 口 (CD 。 


打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 。 将 文件 保存 为 


readCensusExcel.py. 











#! python3 
# readCensusExcel.py - Tabulates population and number of census tracts f 
# each county. 


@ import openpyxl, pprint 
print( ‘Opening workbook..." ) 

@ wb = openpyxl.load_workbook('censuspopdata.x1sx' ) 

© sheet = wb.get_sheet_by_name('Population by Census Tract’) 
countyData = {} 


# TODO: Fill in countyData with each county's population and tracts. 
print( ‘Reading rows...’ ) 
@ for row in range(2, sheet.get_highest_row() + 1): 
# Each row in the spreadsheet has data for one census tract. 
State sheet['B' + str(row)].value 
county = sheet['C' + str(row)].value 
pop = sheet['D' + str(row)].value 


# TODO: Open a new text file and write the contents of countyData to it. 





这 上 段 代 码 导 入 了 openpyxl 模 块 ， 也 导入 了 pprint 模 块 ， 你 用 后 者 来 打 
印 最 终 的 县 的 数据 @。 然 后 代码 打开 了 censuspopdata.xlsx 文 件 介 ， 取 得 
了 包含 人 口 普 查 数 据 的 工作 表 人 全， 开始 达 代 它 的 行 @。 


请 注意 ， 你 也 创建 了 一 个 countyData 变 量 ， 它 将 包含 你 计算 的 每 个 
县 的 人 口 和 普 碍 区 数目 。 但 在 它 里 面 存 储 任何 东西 之 前 ， 你 应 该 确定 它 
内 部 的 数据 结构 。 














第 2 步 : 填充 数据 结构 


保存 在 countyData 中 的 数据 结构 将 是 一 个 字典 ， 以 州 的 简称 作为 
键 。 每 个 州 的 简称 将 映射 到 另 一 个 字典 ， 其 中 的 键 是 该 州 的 县 的 名 称 。 
每 个 县 的 名 称 又 映射 到 一 个 字典 ， 该 字典 只 有 两 个 键 ，'tracts' 和 'pop'。 
这 些 键 映射 到 普 仁 区 数目 和 该 县 的 人 口 。 例 如 ， 该 字典 可 能 类 似 于 : 


{'AK': {'Aleutians East': {'pop': 3141, 'tracts': 1}, 
"Aleutians West': {'pop': 5561, ‘tracts': 2}, 
"Anchorage': {'pop': 291826, 'tracts': 55}, 
"Bethel': {'pop': 17013, ‘tracts': 3}, 
"Bristol Bay': {'pop': 997, 'tracts': 1}, 
--snip 





如 果 前 面 的 字典 保存 在 countyData 中 ， 下 面 的 表达 式 求 值 结果 如 


>>> countyData[ 'AK']['Anchorage' ][ pop ] 
291826 

>>> countyData[ 'AK'][ ‘Anchorage’ ]['tracts' ] 
55 





一 般 来 说 ，countyData 字 典 中 的 键 看 起 来 像 这 样 : 





countyData[state abbrev 


][county 


][ tracts ' ] 
countyData[state abbrev 


][ county 


][ pop ] 





既然 知道 了 countyData 的 结构 ， 就 可 以 编写 代码 ， 用 县 的 数据 填 
它 。 将 下 面 的 代码 添加 到 程序 的 末尾 : 


#! python 3 
# readCensusExcel.py - Tabulates population and number of census tracts f 


# each county. 


--snip 


for row in range(2, sheet.get_highest_row() + 1): 
# Each row in the spreadsheet has data for one census tract. 
State = sheet['B' + str(row)].value 
county = sheet['C' + str(row)].value 
pop = sheet['D' + str(row)].value 


# Make sure the key for this state exists. 





@ countyData.setdefault(state, {}) 


# Make sure the key for this county in this state exists. 


@ countyData[state].setdefault(county, {'tracts': ©, ‘pop’: @}) 


# Each row represents one census tract, so increment by one. 


© countyData[state][county]['tracts'] += 1 


# Increase the county pop by the pop in this census tract. 


(4) countyData[state][county]['pop'] += int(pop) 


# TODO: Open a new text file and write the contents of countyData to it. 








最 后 的 两 行 代码 执行 实际 的 计算 工作 ， 在 for 循 环 的 每 次 迭代 中 ， 针 
对 当前 的 县 ， 增 加 tracts 的 值 @， 并 增加 pop 的 值 @。 


其 他 代码 存在 是 因为 ， 只 有 countyData 中 存在 的 键 ， 你 才能 引用 它 
的 值 。《〈 也 就 是 说 ， 如 果 'AK' 键 不 存在 ，countyData['AK']['Anchorage"] 
[tracts] += 1 将 导致 一 个 错误 ) 。 为 了 确保 州 简称 的 键 存在 ， 你 需要 调 
用 setdefault() 方 法 ， 在 state 还 不 存在 时 设置 一 个 默认 值 @。 


正如 countyData 字 典 需 要 一 个 字典 作为 每 个 州 缩写 的 值 ， 这 样 的 字 
典 叉 需要 一 个 字典 ， 作 为 每 个 县 的 键 的 值 四 。 这 样 的 每 个 字典 又 需要 
键 'tracts' 和 'pop'， 它 们 的 初始 值 为 整数 0( 如 果 这 个 字典 的 结构 令 你 混 
涌 ， 回 去 看 看 本 节 开 始 处 字典 的 例子 ) 。 


如 果 键 已 经 存在 ，setdefaultO 不 会 做 任何 事情 ， 因 此 在 for 循 环 的 每 
TRIER aS EASA a) 


第 3 步 : 将 结果 写 入 文件 


for 循 环 结束 后 ，countyData 字 上 — 典 将 包含 所 有 的 人 口 和 普查 区 信息 ， 
以 县 和 州 为 键 。 这 时 ， 你 可 以 编写 更 多 代码 ， 将 数据 写 入 文本 文件 或 另 
一 个 Excel 电 子 表格 。 目 前 ， 我 们 只 是 使 用 pprint.pformat() 函 数 ， 将 变量 
字典 的 值 作 为 一 个 巨大 的 字符 串 ， 写 入 文件 census2010.py。 在 程序 的 末 
尾 加 上 以 下 代码 《确保 它 没 有 缩 进 ， 这 样 它 驶 在 for 循 环 之 外 ) : 








#! python 3 

# readCensusExcel.py - Tabulates population and number of census tracts for 
# each county. 

--snip 


for row in range(2, sheet.get_highest_row() + 1): 
--snip 


# Open a new text file and write the contents of countyData to it. 


print(' Writing results...') 


resultFile = open('census201@.py', 'w') 


resultFile.write('allData = 


+ pprint.pformat(countyData) ) 


resultFile.close() 


print('Done.') 


[L CR 





pprint.pformatO 函 数 产生 一 个 字符 串 ， 它 本 吴 束 是 格式 化 好 的 、 有 
效 的 Python 代码 。 将 它 输出 到 文本 文件 census2010.py， 你 就 通过 Python 
程序 生成 了 一 个 Python 程序 ! 这 可 能 看 起 来 有 点 复杂 ， 但 好 处 是 你 现在 
可 以 导入 census2010.py， 就 像 任何 其 他 Python 模块 一 样 。 在 交互 式 环境 
中 ， 将 当前 工作 目录 变更 到 新 创建 的 文件 所 在 的 文件 夹 〈 在 我 的 笔记 本 
上 ， 就 是 CA\Python34) ， 然 后 导入 它 : 

















>>> import os 


>>> os.chdir('C:\\Python34' ) 


>>> import census2010 


>>> census2010.allData[ 'AK']['Anchorage' ] 


{'pop': 291826, ‘tracts': 55} 
>>> anchoragePop = census2010.all1Data[ 'AK']['Anchorage' ]['pop' ] 


>>> print('The 2010 population of Anchorage was ' + str(anchoragePop) ) 


The 2010 population of Anchorage was 291826 





readCensusExcel.py 程 序 是 可 以 扔 挥 的 代码 : 当 你 把 它 的 结果 保存 为 








census2010.py 之 后 ， 就 不 需要 再 次 运行 该 程序 了 。 任 何 时 候 ， 只 要 需要 
县 的 数据 ， 就 可 以 执行 import census2010。 


手工 计算 这 些 数据 可 能 需要 数 小 时 ， 这 个 程序 只 要 几 秒 钟 。 利 用 
OpenPyXL， 可 以 量 无 困难 地 提取 保存 在 Excel 电子 表格 中 的 信息 ， 并 
对 它 进行 计算 。 从 http:/nostarch. com/automatestuff/ 可 以 下 载 这 个 完整 的 
程序 。 


第 4 步 : 类 似 程序 的 思想 


许多 公司 和 组 织 机 构 使 用 Excel 来 保存 各 种 类 型 的 数据 ， 电 子 表格 
会 变 得 庞大 ， 这 并 不 少见 。 解 析 Excel 电 子 表 格 的 程序 都 有 类 似 的 结 
构 :， 它 加 载 电子 表 格 文件 ， 准 备 一 些 变 量 或 数据 结构 ， 然 后 循环 裔 历 电 
子 表 格 中 的 每 一 行 。 这 样 的 程序 可 以 做 下 列 事情 : 


。 比较 一 个 电子 表格 中 多 行 的 数据 。 

。 打开 多 个 Excel 文 件 ， 路 电子 表格 比较 数据 。 

。 检 奋 电子 表格 是 否 有 空 行 或 无 效 的 数据 ， 如 果 有 就 警告 。 
。 从 电子 表格 中 读 取 数据 ， 将 它 作 为 Python 程序 的 输入 。 




















12.5 写 入 Excel 文 档 

OpenPyXL 也 提供 了 一 些 方法 写 入 数据 ， 这 意味 着 你 的 程序 可 以 创 
建 和 编辑 电子 表格 文件 。 利 用 Python， 创 建 一 个 包含 几 千 行 数据 的 电子 
表格 是 非常 简单 的 。 
12.5.1 创建 并 保存 Excel 文 档 


调用 openpyxl.Workbook0O 函 数 ， 创 建 一 个 新 的 空 Workbook 对 象 。 在 
交互 式 环境 中 输入 以 下 代码 : 





>>> import openpyxl 


>>> wb = openpyx1.Workbook() 


>>> wb.get_sheet_names() 


['Sheet'] 
>>> sheet = wb.get_active_sheet() 


>>> sheet.title 


'Sheet' 
>>> sheet.title = 'Spam Bacon Eggs Sheet' 


>>> wb.get_sheet_names() 


['Spam Bacon Eggs Sheet'] 


pT 


工作 短 将 从 一 个 工作 表 开 始 ， 名 为 Sheet。 你 可 以 将 新 的 字符 串 保 
存在 它 的 title 属 性 中 ， 从 而 改变 工作 表 的 名 字 。 


当 修改 Workbook 对 象 或 它 的 工作 表 和 单元 格 时 ， 电 子 表 格 文件 不 
会 保存 ， 除 非 你 调用 save0 工 作 短 方法 。 在 交互 式 环境 中 输入 以 下 代码 
《让 example.xlsx 处 于 当前 工作 目录 ) : 








>>> import openpyxl 


>>> wb = openpyxl.load_workbook( 'example.x1sx' ) 


>>> sheet = wb.get_active_sheet() 


>>> sheet.title = 'Spam Spam Spam' 


>>> wb.save('example_copy.x1sx' ) 








这 里 ， 我 们 改变 了 工作 表 的 名 称 。 为 了 保存 变更 ， 我 们 将 文件 名 作 
为 字符 串 传 递 给 save(0) 方 法 。 传 入 的 文件 名 与 最 初 的 文件 名 不 同 ， 例 
如 "example_copy.xlsx'， 这 将 变更 保存 到 电子 表格 的 一 份 找 贝 中 。 


当 你 编辑 从 文件 中 加 载 的 一 个 电子 表格 时 ， 总 是 应 该 将 新 的 、 编 辑 
过 的 电子 表格 保存 到 不 同 的 文件 名 中 。 这 样 ， 如 条 代码 中 有 缺陷 ， 导 致 
新 的 保存 到 文件 中 数据 不 对 或 率 误 ， 还 有 最 初 的 电子 表格 文件 可 以 处 
Hi, 





12.5.2 创建 和 删除 工作 表 


利用 create_sheet() and remove_sheet() 方 法 ， 可 以 在 工作 短 中 添加 或 
删除 工作 表 。 在 交互 式 环境 中 输入 以 下 代码 : 








>>> import openpyxl 


>>> wb = openpyx1.Workbook() 


>>> wb.get_sheet_names() 


['Sheet'] 
>>> wb.create_sheet() 


< Worksheet "Sheet1"> 
>>> wb.get_sheet_names() 


['Sheet', 'Sheet1'] 
>>> wb.create_sheet(index=0, title='First Sheet') 


< Worksheet "First Sheet"> 
>>> wb.get_sheet_names() 


['First Sheet', ‘Sheet’, 'Sheet1'] 
>>> wb.create_sheet(index=2, title='Middle Sheet’) 


< Worksheet "Middle Sheet"> 
>>> wb.get_sheet_names() 


['First Sheet', 'Sheet', "Middle Sheet', "Sheet1 ] 





create_sheet() 方 法 返回 一 个 新 的 Worksheet 对 象 ， 名 为 SheetX， 它 默 
认 是 工作 禾 的 最 后 一 个 工作 表 。 或 者 ， 可 以 利用 index 和 title 关 键 字 参 








数 ， 指 定 新 工作 表 的 索引 或 名 称 。 
继续 前 面 的 例子 ， 输 入 以 下 代码 : 





>>> wb.get_sheet_names() 


['First Sheet', 'Sheet', "Middle Sheet', "Sheet1 ] 
>>> wb.remove_sheet(wb.get_sheet_by_name('Middle Sheet’ )) 


>>> wb.remove_sheet(wb.get_sheet_by_name('Sheet1' ) ) 


>>> wb.get_sheet_names() 


['First Sheet', 'Sheet'] 





remove_sheet() 方 法 接受 一 个 Worksheet 对 象 作 为 其 参数 ， 而 不 是 工 
作 表 名 称 的 字符 串 。 如 果 你 只 知道 要 删除 的 工作 表 的 名 称 ， 就 调用 


get_sheet_by_name()， 将 它 的 返回 值 传 入 remove_sheet()。 





在 工作 短 中 添加 或 删除 工作 表 之 后 ， 记 得 调用 save0) 方 法 来 保存 变 


12.5.3 将 值 写 入 单元 格 


将 值 写 入 单元 格 ， 很 像 将 值 写 入 字典 中 的 键 。 在 交互 式 环 境 中 输入 
以 下 代码 : 





>>> import openpyxl 


>>> wb = openpyx1.Norkbook() 


>>> sheet = wb.get_sheet_by_name('Sheet') 


>>> sheet['A1'] = "Hello wor1d! 


>>> sheet['A1'].value 


"Hello world!' 





如 果 你 有 单元 格 坐 标的 字符 串 ， 可 以 像 字 典 的 键 一 样 ， 将 它 用 于 
Worksheet 对 象 ， 指 定 要 写 入 的 单元 格 。 


12.6 项 目 : 更 新 一 个 电子 表格 





这 个 项 目 需要 编写 一 个 程序 ， 更 新 产品 销售 电子 表格 中 的 单元 格 。 
程序 将 过 历 这 个 电子 表格 ， 找 到 特定 类 型 的 产品 ， 并 更 新 它们 的 价格 。 
请 从 http://nostarch.com/ automatestuff/ 下 载 这 个 电子 表格 。 图 12-3 展 示 了 
这 个 电子 表格 


B Cc D 

COST PER POUND POUNDS SOLD TOTAL 
2 Potatoes 0.86 21.6 
Okra 2.26 38.6 
Fava beans 2.69 32.8 
Watermelon 0.66 27.3 
Garlic 1.19 4.9 
Parsnips 2.27 Ta 
Asparagus 2.49 37.9 
Avocados 3.23 9.2 
Celery 3.07 28.9 
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图 12-3 产品 销售 的 电子 表格 


每 一 行 代表 一 次 单独 的 销售 。 列 分 别 是 销售 产品 的 类 型 CA) 、 产 
品 每 磅 的 价格 〈“B) 、 销 售 的 傍 数 〈《C) ， 以 及 这 次 销售 的 总 收入 。 
TOTAL 列 设置 为 Excel 公 式 ， 将 每 磅 的 成 本 乘 以 销售 的 磅 数 ， 并 将 结果 
取 整 到 分 。 有 了 这 个 公式 ， 如 果 列 B 或 C 发 生变 化 ，TOTAL 列 中 的 单元 
格 将 自动 更 新 。 


现在 假设 Garlic、Celery 和 Lemons 的 价格 输入 的 不 正确 。 这 让 你 面 
对 一 项 无 聊 的 任务 : 过 历 这 个 电子 表格 中 的 几 千 行 ， 更 新 所 有 garlic、 
celery 和 lemon 行 中 每 磅 的 价格 。 你 不 能 简单 地 对 价格 查找 蔡 换 ， 因 为 可 
能 有 其 他 的 产品 价格 一 样 ， 你 不 希望 错误 地 “更 正 ?。 对 于 几 千 行 数据 ， 
手工 操作 可 能 要 几 小 时 。 但 你 可 以 编写 程序 ， 几 秒 钟 内 完成 这 个 任务 。 


你 的 程序 做 下 面 的 事情 : 


。 JEENA AT o 
。 如 果 该 行 是 Garlic、Celery 或 Lemons， 更 新 价格 。 


这 意味 着 代码 需要 做 下 面 的 事情 : 
。 打开 电子 表格 文件 。 


。 针对 每 一 行 ， 检 查 列 A 的 值 是 不 是 Celery、Garlic 或 Lemon。 
。 如 果 是 ， 更 新 列 B 中 的 价格 。 














。 将 该 电子 表格 保存 为 一 个 新 文件 (这 样 束 不 会 于 失 原 来 的 电子 表 
格 ， 以 防 万 一 ) 。 


第 1 步 : 利用 更 新 信息 建 并 数据 结构 
需要 更 新 的 价格 如 下 : 


Celery 1.19 





Garlic 3.07 
Lemon 1.27 


你 可 以 像 这 样 编写 代码 : 


if produceName == 'Celery': 
cellObj = 1.19 

if produceName == 'Garlic': 
cellObj = 3.07 

if produceName == 'Lemon': 


cellObj = 1.27 





这 样 硬 编码 产品 和 更 新 的 价格 有 点 不 优雅 。 如 果 你 需要 用 不 同 的 价 
格 ， 或 针对 不 同 的 产品 ， 再 次 更 新 这 个 电子 表格 ， 就 必须 修改 很 多 代 
码 。 每 次 修改 代码 ， 都 有 引入 缺陷 的 风险 。 


更 灵活 的 解决 方案 ， 是 将 正确 的 价格 信息 保存 在 字典 中 ， 在 编写 代 
0 





#! python3 
# updateProduce.py - Corrects costs in produce sales spreadsheet. 


import openpyxl 


wb = openpyxl.load_workbook('produceSales.x1sx') 
sheet = wb.get_sheet_by_name('Sheet' ) 


# The produce types and their updated prices 
PRICE UPDATES = {'Garlic': 3.07, 

"Celery': 1.19, 

"Lemon': 1.27} 


# TODO: Loop through the rows and update the prices. 





E aS Au ay py。 如 果 需 要 再 次 更 新 这 个 电子 表格 ， 
需要 更 新 PRICE_UPDATES 字 典 ， 不 用 修改 其 他 代码 。 








第 2 步 : 检查 所 有 行 ， 更 新 不 正确 的 价格 


程序 的 下 一 部 分 将 循环 遇 历 电子 表格 中 的 所 有 行 。 将 下 面 代码 添加 
到 updateProduce.py 的 末尾 : 





#! python3 
# updateProduce.py - Corrects costs in produce sales spreadsheet. 


--snip 


# Loop through the rows and update the prices. 


@ for rowNum in range(2, sheet.get_highest_row()): # skip the first ro 


@ produceName = sheet.cell(row=rowNum, column=1).value 


© if produceName in PRICE_UPDATES: 


sheet.cell(row=rowNum, column=2).value = PRICE_UPDATES[produceNam 


@ wb.save('updatedProduceSales.xlsx') 





我 们 从 第 三 行 开 始 循环 遍历 ， 因 为 第 1 行 是 标题 @。 第 1 列 的 单元 格 
( 即 列 A》 将 保存 在 变量 produceName 中 信 。 如 果 produceName 的 值 是 
PRICE_UPDATES 字 典 中 的 一 个 键 人 @， 你 就 知道 ， 这 行 的 价格 必须 修 
改 。 正 确 的 价格 是 PRICE_UPDATES[produceName]。 


请 注意 ， 使 用 PRICE_UPDATES 让 代码 变 得 多 么 干净 。 只 需要 一 条 


if 语 句 ， 而 不 是 像 if produceName == 'Garlic 这 样 的 代码 ， 就 能 够 更 新 所 
有 类 型 的 产品 。 因 为 代码 没有 硬 编码 产品 名 称 ， 而 是 使 用 

PRICE UPDATES 字 典 ， 在 for 循 环 中 更 新 价格 ， 所 以 如 果 产 品 销售 电子 
表格 需要 进一步 修改 ， 你 只 需要 修改 PRICE_UPDATES 字 典 ， 不 用 改 其 
他 代码 。 


在 过 有 历 整个 电子 表格 并 进行 修改 后 ， 代 码 将 Workbook 对 象 保存 到 
updatedProduceSales. xlsx@。 它 没有 禾 写 原来 的 电子 表格 ， 以 防 万 一 程 
序 有 人 缺陷， 将 电子 表格 改 错 。 在 确认 修改 的 电子 表格 正确 后 ， 你 可 以 删 


除 原来 的 电子 表格 。 








你 可 以 从 http://nostarch.com/automatestuff/ 下 载 这 个 程序 的 完整 源 代 
HY. 


第 3 步 : 类 似 程序 的 思想 


因为 许多 办 公 室 职员 一 直 在 使 用 Excel 电 子 表格 ， 所 以 能 够 自动 编 
RERE E i ee eae ea SE 


。 从 一 个 电子 表格 读 取 数 据 ， 写 入 其 他 电子 表格 的 茶 些 部 分 。 

。 从 网 站 、 文 本 文件 或 丁 贴 板 读 取 数据 ， 将 它 写 入 电子 表格 。 

。 目 动 清理 电子 表格 中 的 数据 。 例 如 ， 可 以 利用 正则 表达 式 ， 读 取 多 
种 格式 的 电话 号 码 ， 将 它们 转换 成 单一 的 标准 格式 。 


12.7 设置 单元 格 的 字体 风格 


设置 某 些 单元 格 行 或 列 的 字体 风格 ， 可 以 帮助 你 强调 电子 表格 中 重 
点 的 区 域 。 例 如 ， 在 这 个 产品 电子 表格 中 ， 程 序 可 以 对 potato、garlic 和 
parsnip 等 行使 用 粗 体 。 或 者 也 许 你 希望 对 每 磅 价格 超过 5 美元 的 行使 用 
斜体。 手工 为 大 型 电子 表格 的 某 些 部 分 设置 字体 风格 非常 令 人 厌烦 ， 但 
程序 可 以 马上 完成 。 


为 了 定义 单元 格 的 字体 风格 ， 需 要 从 openpyxl.styles 模 块 导入 Font() 
AllStyle() eZ © 





from openpyxl.styles import Font, Style 





这 让 你 能 输入 Font0， 人 代替 openpyxl.styles.FontO 〈 人 参见 2.8 节 “导入 模 
块 "， 复 习 这 种 方式 的 import 语 句 )。 


这 里 有 一 个 例子 ， 它 创建 了 一 个 新 的 工作 每 ， 将 Al 单元 格 设置 为 
24 点 、 和 斜体 。 在 交互 式 环 境 中 输入 以 下 代码 : 


>>> import openpyxl 





>>> 


>>> 


@ >>> 


@ >>> 


© >>> 


from openpyxl.styles import Font, Style 


wb = openpyxl.Workbook() 


sheet = wb.get_sheet_by_name('Sheet') 


italic24Font = Font(size=24, italic=True) 


styleObj = Style(font=italic24Font) 


sheet['A'].style/styleObj 


sheet['A1'] = "Hello world!’ 


wb.save('styled.xlsx') 





OpenPyXL 模 块 用 Style 对 象 来 表示 单元 格 字 体 风格 设置 的 集合 ， 字 
体 风 格 保存 在 Cell 对 象 的 style 属 性 中 。 将 Style 对 象 赋 给 style 属 性 ， 可 以 
设置 单元 格 的 字体 风格 。 


在 这 个 例子 中 ，Font(size=24, italic=True) 返 回 一 个 Font 对 象 ， 保 存 
在 italic24Font 中 人 @。Font0) 的 关键 字 参 数 size 和 italic， 配 置 了 Font 对 象 的 
ee 性 。 这 个 Font 对 象 被 传递 给 Style(font=italic24Font) 调 用 ， 该 函数 
的 返 回 值 保存 在 syleObj 趾 从。 如 果 styleObj 被 赋 给 单元 格 的 style 属 性 
个， 所 有 字体 风格 的 信息 将 应 用 于 单元 格 Al。 


12.8 Font 对 象 


Font 对 象 的 style 属 性 影响 文本 在 单元 格 中 的 显示 方式 。 要 设置 字体 
RUB VE, WI) Font( esi ere ADELE EL. 4212-2) AN J Font() es) BAY 
能 的 关键 字 参 数 。 














表 12-2 Font style 属 性 的 关键 字 参 数 














字体 名 称 ， 诸 如 'Calibri' 或 'Times New Roman' 


italic 布尔 型 True 表示 和 斜体 





| 


可 以 调用 Font() 来 创建 一 个 Font 对 象 ， 并 将 这 个 Font 对 象 保存 在 一 个 
变量 中 。 然 后 将 它 传递 给 Style()， 得 到 的 Style 对 象 保存 在 一 个 变量 中 ， 
ee 例如 ， 下 面 的 代码 创建 了 各 种 字 
体 风 格 : 





>>> import openpyxl 


>>> from openpyxl.styles import Font, Style 


>>> wb = openpyx1.Workbook() 


>>> sheet = wb.get_sheet_by_name('Sheet' ) 


>>> fontObj1 = Font(name='Times New Roman', bold=True) 
>>> styleObj1 = Style(font=font0bj1) 
>>> sheet['A1'].style/styleObj 


>>> 


>>> 


>>> 


>>> 


>>> 


sheet['A1'] = "Bold Times New Roman' 


fontObj2 = Font(size=24, italic=True) 


styleObj2 = Style(font=font0Obj2) 


sheet['B3'].style/styleObj 


sheet['B3'] = '24 pt Italic' 


wb.save('styles.xlsx') 





这 里 ， 我 们 将 一 个 Font 对 象 保 存在 fontObj1 中 ， 并 用 它 创 建 一 个 
Style 对 象 ， 该 对 象 保 存在 styleObjl 中 ， 然 后 将 Al 的 Cel 对 象 的 style 属 性 
设置 为 styleObj。 我 们 针对 男 一 个 Font 对 象 科 Style 对 象 重复 这 个 过 程 ， 
设置 第 二 个 单元 格 的 字体 风格 。 运 行 这 段 代码 后 ， 电 子 表格 中 A1 和 B3 
单元 格 的 字体 风格 将 设置 为 自 定 义 的 字体 风格 ， 如 图 12-4 所 示 。 


A B Œ D 
1 Bold Times New Roman 








3 24 pt Italic 

















图 12-4 带 有 自 定 义 字 体 风格 的 电子 表格 


对 于 单元 格 A1， 我 们 将 字体 名 称 设置 为 Times New Roman'， 并 将 
bold 设 置 为 tue， 这 样 我 们 的 文本 将 以 粗 体 Times New Roman 的 方式 显 
示 。 我 们 没有 指定 大 小 ， 所 以 使 用 openpyxl 的 默认 值 11。 在 单元 格 B3 
中 ， 我 们 的 文本 是 斜体 ， 大 小 是 24。 我 们 没有 指定 字体 的 名 称 ， 所 以 使 
用 openpyxl 的 默认 值 Calibri。 


12.9 公式 


公式 以 一 个 等 号 开始 ， 可 以 配置 单元 格 ， 让 它 包 含 通过 其 他 单元 格 
计算 得 到 的 值 。 在 本 节 中 ， 你 将 利用 openpyxl 模 块 ， 用 编程 的 方式 在 单 
元 格 中 添加 公式 ， 就 像 添加 普通 的 值 一 样 。 例 如 : 





>>> sheet['B9'] = '=SUM(B1:B8) ' 





这 将 =SUM(B1:B8) 作 为 单元 格 B9 的 值 。 这 将 B9 单 元 格 设置 为 一 个 
公式 ， 计 算 单 元 格 B1 到 B8 的 和 。 图 12-5 展 示 了 它 的 效果 。 











/Sheet2 .“Sheet3 “入 - 





图 12-5 单元 格 B9 包 含 了 一 个 公式 ， 计 算 单元 格 B1 到 B8 的 和 


为 单元 格 设置 公式 束 像 设置 其 他 文本 值 一 样 。 在 交互 式 环 境 中 输入 
以 下 代码 : 





>>> import openpyxl 


>>> wb = openpyx1.Workbook() 


>>> sheet = wb.get_active_sheet() 


>>> sheet['A1'] = 200 


>>> sheet['A2'] = 300 


>>> sheet['A3'] = '=SUM(A1:A2)' 


>>> wb.save('writeFormula.xl1sx' ) 





单元 格 A1 和 A2 分 别 设 置 为 200 和 300。 单 元 格 A3 设 置 为 一 个 公式 ， 
求 出 A1 和 A2 的 和 。 如 果 在 Excel 中 打开 这 个 电子 表格 ，A3 的 值 将 显示 为 
500。 


也 可 以 读 取 单元 格 中 的 公式 ， 束 像 其 他 值 一 样 。 但 是 ， 如 果 你 希望 
看 到 该 公式 的 计算 结果 ， 而 不 是 原来 的 公式 ， 就 必须 将 load_workbook0) 
的 data_only 关 键 字 参数 设置 为 True。 这 意味 着 Workbook 对 象 要 么 显示 公 
式 ， 要 么 显示 公式 的 结果 ， 不 能 兼 得 (但 是 针对 一 个 电子 表格 文件 ， 可 
以 加 载 多 个 Workbook 对 象 ) 。 在 交互 式 环境 中 输入 以 下 代码 ， 看 看 有 
无 data_only 关 键 字 参数 时 ， 加 载 工 作 敌 的 区 别 : 


>>> import openpyxl 


>>> wbFormulas = openpyx1.1oad_workbook(' writeFormu1a.xlsx') 


>>> sheet = wbFormulas.get_active_sheet() 


>>> sheet['A3'].value 


"=SUM(A1:A2)' 


>>> wbDataOnly = openpyx1l.load_workbook('writeFormula.xlsx', data_only=True 


>>> sheet = wbDataOnly.get_active_sheet() 


>>> sheet['A3'].value 


500 





这 里 ， 如 果 调 用 load _workbookO 时 这 有 data_ only=True，A3 单 元 格 
就 显示 为 500， 即 公式 的 结果 ， 而 不 是 公式 的 文本 。 


Excel 公 式 为 电子 表格 提供 了 一 定 程度 的 编程 能 力 ， 但 对 于 复杂 的 
任务 ， 很 快 就 会 失去 控制 。 例 如 ， 即 使 你 非常 熟悉 Excel 的 公式 ， 要 想 
型 清楚 =IFERROR 
(TRIM(F(LEN(VLOOKUP(£7, Sheet2!$A$1:$B$10000,2,FALSE))>0,SUBS 
(VLOOKUP (F7, Sheet2!$4$1:$B$10000, 2, FALSE), "", ""),'")), "9 实际 
上 做 了 什么 ， 也 是 一 件 非 常 头痛 的 事 。 Python 代码 的 可 读 ， 性 要 好 得 多 。 


12.10 调整 行 和 列 


在 Excel 中 ， 调 整 行 和 列 的 大 小 非常 容易 ， 只 要 点 击 并 拖 动 行 的 边 
缘 ， 或 列 的 头 部 。 但 如 果 你 需要 根据 单元 格 的 内 容 来 设置 行 或 列 的 大 
小 ， 或 者 硕 望 设置 大 量 电子 表格 文件 中 的 行列 大 小 ， 编 写 Python 程 序 来 
做 束 要 快 得 多 。 


行 和 列 也 可 以 完全 隐藏 起 来 。 或 者 它们 可 以“ 冻结”， 这 样 就 总 是 显 
如 果 打 印 该 电子 表格 ， 它 们 就 出 现在 每 一 页 上 《这 很 适合 
HRA) 。 











-> 











12.10.1 设置 行 高 和 列 宽 


Worksheet 对 象 有 row_dimensions 和 column dimensions 属 性 ， 控 制 行 
高 和 列 宽 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> import openpyxl 


>>> wb = openpyx1.Workbook() 


>>> sheet = wb.get_active_sheet() 


>> 


Vv 


sheet['A1'] = ‘Tall row' 


>> 


Vv 


sheet['B2'] = ‘Wide column’ 


>>> sheet.row_dimensions[1].height = 70 


>>> sheet.column_dimensions['B'].width = 20 


>> 


Vv 


wb.save('dimensions.xl1sx' ) 





工作 表 的 row_ dimensions 和 column_dimensions 是 像 字典 一 样 的 值 ， 
row_dimensions 包 含 RowDimension 对 象 ，column_dimensions 包 含 
ColumnDimension 对 象 。 在 row_dimensions 中 ， 可 以 用 行 的 编号 来 访问 
一 个 对 象 〈 在 这 个 例子 中 ， 是 1 或 ) 。 在 column_ dimensions 中 ， 可 以 用 
列 的 字母 来 访问 一 个 对 象 〈 在 这 个 例子 中 ， 是 A 或 B) o 


dimensions.xlsx 电 子 表 格 如 图 12-6 所 示 。 


1 Tall row 


2 Wide column 


























图 12-6 行 1 和 列 B 设 置 了 更 大 的 高 度 和 宽度 


一 旦 有 了 RowDimension 对 象 ， 束 可 以 设置 它 的 高 度 。 一 旦 有 了 
ColumnDimension 对 象 ， 就 可 以 设置 它 的 宽度 。 行 的 高 度 可 以 设置 为 0 到 
409 之 间 的 整数 或 浮 点 值 。 这 个 值 表 示 高 度 的 点 数 。 一 点 等 于 1/72 英 
寸 。 默 认 的 行 高 是 12.75。 列 宽 可 以 设置 为 0 到 255 之 间 的 整数 或 浮 点 
数 。 这 个 值 表示 使 用 默认 字体 大 小 时 (11 点 ) ， 单 元 格 可 以 显示 的 字符 
数 。 默 认 的 列 宽 是 8.43 个 字符 。 列 宽 为 零 或 行 高 为 零 ， 将 使 单元 格 隐 
藏 。 




















12.10.2 合并 和 拆 分 单元 格 


利用 merge_cells0 工 作 表 方法 ， 可 以 将 一 个 矩形 区 域 中 的 单元 格 合 
并 为 一 个 单元 格 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> import openpyxl 


>>> wb = openpyx1.Workbook() 


>>> sheet = wb.get_active_sheet() 


>>> sheet.merge_cells('A1:D3') 


>> 


Vv 


sheet['A1'] = "Twelve cells merged together.' 


>>> sheet.merge_cells('C5:D5') 


>> 


Vv 


sheet['C5'] = "Two merged cells.' 


>>> wb.save('merged.x1sx' ) 





merge_cells0 的 参数 是 一 个 字符 串 ， 表 示 要 合并 的 窍 形 区 域 堪 上 角 





ME FAKAT: Al1:D3' 将 12 个 单元 格 合并 为 一 个 单元 格 。 要 设置 这 
a 只 要 设置 这 一 组 合并 单元 格 左上 角 的 单元 格 的 


如 果 运 行 这 段 代 码 ，merged.xlsx 看 起 来 如 图 12-7 所 示 。 








12 个 单元 格 合 并 到 一 起 


两 个 单元 格 合并 到 一 起 
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图 12-7 在 电子 表格 中 合并 单元 格 





要 拆 分 单元 格 ， 就 调用 unmerge_cells0 工 作 表 方 法 。 在 交互 式 环境 
中 输入 以 下 代码 : 





>>> import openpyxl 


>>> wb = openpyxl.load_workbook( 'merged.x1sx' ) 


>>> sheet = wb.get_active_sheet() 


>>> sheet.unmerge_cells('A1:D3') 


>>> sheet.unmerge_cells('C5:D5') 


>>> wb.save('merged.xlsx') 





如 末 保 存 变更 ， 然 后 查看 这 个 电子 表格 ， 就 会 看 到 合并 的 单元 格 恢 
复 成 一 些 独 立 的 单元 格 。 


12.10.3 冻结 窗 格 


对 于 太 大 而 不 能 一 屏 显 示 的 电子 表格 , “冻结 ?顶部 的 几 行 或 最 左边 
的 几 列 ， 是 很 有 帮助 的 。 例 如 ， 旋 结 的 列 或 行 表 头 ， 就 算 用 户 滚动 电子 
表格 ， 也 是 始终 可 见 的 。 这 称 为 “冻结 窗 格 >”。 在 OpenPyXL 中 ， 每 个 
Worksheet 对 象 都 有 一 个 freeze_panes 属 性 ， 可 以 设置 为 一 个 Cell 对 象 或 
一 个 单元 格 坐 标的 字符 串 。 请 注意 ， 单 元 格 上 边 的 所 有 行 和 左边 的 所 有 
列 都 会 冻结 ， 但 单元 格 所 在 的 行 和 列 不 会 冻结 。 


要 解冻 所 有 的 单元 格 ， 束 将 freeze_panes 设 置 为 None 或 'A1'。 表 12-3 
展示 了 freeze_panes 设 定 的 一 些 例子 ， 以 及 哪些 行 或 列 会 冻结 。 


表 12-3 冻结 窗 格 的 例子 








冻结 的 行 和 列 


freeze_panes 的 设置 





sheet.freeze_panes = 'A2' 


sheet.freeze_panes = 'B1' 
sheet.freeze_panes = 'C1' 列 A 和 列 B 






sheet.freeze_panes = 'C2' 行 1 和 列 A 和 列 B 


sheet.freeze_panes = 'A1'=\ sheet.freeze_panes = None 没有 冻结 窗 格 








确保 你 有 来 自 http:/nostarch.comy/automatestuff 的 产品 销售 电子 表 
格 。 然 后 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyxl 


>>> wb = openpyxl.load_workbook( 'produceSales.x1sx' ) 


>>> sheet = wb.get_active_sheet() 


>>> sheet.freeze_panes = 'A2' 


>>> wb.save('freezeExample.xl1sx' ) 








如 果 将 freeze_panes 属 性 设置 为 'A2'， 行 1 将 永远 可 见 ， 无 论 用 户 将 
电子 表格 滚动 到 何 处 ， 如 图 12-8 所 示 。 


























P1662 = f 
A B | € D E F 全 
1 FRUIT COST PER POUND POUNDS SOLD TOTAL 
1591 Fava beans 2.69 0.7 1.88 =] 
1592 Grapefruit 0.76 28.5 21.66 
1593 Green peppers 1.89 37 69.93 
1594 Watermelon 0.66 30.4 20.06 
1595 Celery 3.07 36.6 112.36 
1596 Strawberries 4.4 55 24.2 
1597 Green heane , 252 40 100 Q 
M 4 > >|) Sheet Æl ila] i | > 
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图 12-8 将 reeze_panes 设 置 为 'A2'， 行 1 将 永远 可 见 ， 无 论 用 户 如 何 向 下 滚动 
12.10.4 图 表 
openpyX] 文 持 利 用 工作 表 中 单元 格 的 数据 ， 创 建 条 形 图 、 折 线 图 、 





散 点 图 和 人 饼 图 。 要 创建 图 表 ， 需 要 做 下 列 事情 : 
1.， 从 一 个 和 矩 形 区 域 选择 的 单元 格 ， 创 建 一 个 Reference 对 象 。 
2. 通过 传 入 Reference 对 象 ， 创 建 一 个 Series 对 象 。 
3. 创建 一 个 Chart 对 象 。 
4. 将 Series 对 象 添 加 到 Chart 对 象 。 


5. 可 选 地 设置 Chart 对 象 的 drawing.top、drawing.left、drawing.width 
和 drawing.height 变 量 。 


6. 将 Chart 对 象 添加 到 Worksheet 对 象 。 


Reference 对 象 需要 一 些 解释 。Reference 对 象 是 通过 调用 
openpyxl.charts. Reference0O 函 数 并 传 入 3 个 参数 创建 的 : 


1. 包含 图 表 数 据 的 Worksheet 对 象 。 
2. 两 个 整数 的 元 组 ， 代 表 算 形 选 择 区 域 的 左上 角 单 元 格 ， 该 区 域 


包含 图 表 数 据 : 元 组 中 第 一 个 整数 是 行 ， 第 二 个 整数 是 列 。 请 注意 第 一 
行 是 1， 不 是 0。 


3. 两 个 整数 的 元 组 ， 代 表 矩 形 选 择 区 域 的 右 下 角 单 元 格 ， 该 区 域 
包含 图 表 数 据 : 元 组 中 第 一 个 整数 是 行 ， 第 二 个 整数 是 列 。 


图 12-9 展 示 了 坐标 参数 的 一 些 例子 。 
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>>> import openpyxl 


>>> wb = openpyx1.Workbook() 


>>> sheet = wb.get_active_sheet() 


>>> for i in range(1, 11): # create some data in column A 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


sheet['A' + str(i)] =i 


refObj = openpyxl.charts.Reference(sheet, (1, 1), (10, 1)) 


seriesObj = openpyxl.charts.Series(refObj, title='First series’) 


chartObj = openpyxl.charts.BarChart() 


chartObj.append(seriesObj) 


chartObj.drawing.top = 50 # set the position 


chartObj.drawing.left = 100 


chartObj.drawing.width = 300 # set the size 


>>> chartObj.drawing.height = 200 


>>> sheet.add_chart(chart0Obj) 


>>> wb.save('sampleChart.x1sx' ) 





得 到 的 电子 表格 ， 如 图 12-10 所 示 。 


| il 
50 pixels 


First series 


100 pixels ` 200 pixels 
: i a high 


300 pixels wide 








图 12-10 添加 了 一 个 图 表 的 电子 表格 


我 们 可 以 调用 openpyxl.charts.BarChart()， 创 建 一 个 条 形 图 。 也 可 以 
调用 openpyxl.charts.LineChart()、openpyxl.charts.ScatterChart() 和 和 
openpyxl.charts.PieChart()， 创 建 折 线 图 、 散 点 图 和 人 饼 图 。 


遗憾 的 是 ， 在 OpenPyXL 的 当前 版 本 中 (2.1.4) , load_workbook() 
不 会 加 载 Excel 文 件 中 的 图 表 。 即 使 Excel 文 件 包含 图 表 ， 加 载 的 
Workbook 对 象 也 不 会 包含 它们 。 如 果 加 载 一 个 Workbook 对 象 ， 然 后 马 
上 保存 到 同样 的 .xlsx 文 件 名 中 ， 实 际 上 就 会 删除 其 中 的 图 表 。 


12.11 小 结 


处 理 信息 是 比较 难 的 部 分 ， 通 常 不 是 处 理 本 刁难， 而 是 为 程序 得 到 
正确 格式 的 数据 较 难 。 一 旦 你 将 电子 表格 载 入 Python， 就 可 以 提取 并 操 
作 它 的 数据 ， 比 手工 操作 要 快 得 多 。 


你 也 可 以 生成 电子 表格 ， 作 为 程序 的 输出 。 所 以 如 果 同 事 需要 将 包 
含 几 千 条 销售 合同 的 文本 文件 或 PDF 转 换 成 电子 表格 文件 ， 你 就 不 需要 
无 聊 地 将 它 拷贝 粘贴 到 Excel 中 。 








有 了 openpyxl 模 块 和 一 些 编程 知识 ， 你 会 发 现 处 理 很 大 的 电子 表格 
也 是 小 事 一 桩 。 
12.12 习题 

对 于 以 下 的 问题 ， 设 想 你 有 一 个 Workbook 对 象 保存 在 变量 wb 中 ， 
一 个 Worksheet 对 象 保存 在 sheet 中 ， 一 个 Cell 对 象 保存 在 cell 中 ， 一 个 
Comment 对 象 保存 在 comm 中 ， 一 个 Image 对 象 保存 在 img 中 。 

1. openpyxl.load_workbook()& Buk [El {+ A ? 

2. get_sheet_names(0 工 作 短 方法 返回 什么 ? 

3. 如 何 取 得 名 为 'Sheet1' 的 工作 表 的 Worksheet 对 象 ? 

4. 如 何 取得 工作 竹 的 活动 工作 表 的 Worksheet 对 象 ? 

5. 如 何 取 得 单元 格 C5 中 的 值 ? 

6. 如 何 将 单元 格 C5 中 的 值 设 置 为 "Hello"? 

7. 如 何 取 得 表示 单元 格 的 行 和 列 的 整数 ? 


8. 工作 表 方 法 get_highest_column() 和 get_highest_row() 返 回 什么 ? 
这 些 返 回 值 的 类 型 是 什么 ? 


9. 如果 要 取得 列 M' 的 整数 下 标 ， 需 要 调用 什么 函数 ? 
10. 如 果 要 取得 列 14 的 字符 串 名 称 ， 需 要 调用 什么 函数 ? 
11. 如 何 取 得 从 A1 到 F1 的 所 有 Cell 对 象 的 元 组 ? 

12. 如 何 将 工作 短 保 存 到 文件 名 example.xlsx? 

13， 如 何在 一 个 单元 格 中 设置 公式 ? 


14. 如 果 需 要 取得 蛙 元 格 中 公式 的 结果 ， 而 不 是 公式 本 里， 必须 先 
做 什么 ? 











15. 如 何 将 第 5 行 的 高 度 设置 为 100? 

16. 如 何 设置 列 C 的 宽度 ? 

17. 列 出 一 些 openpyxl 2.1.4 不 会 从 电子 表格 文件 中 加 载 的 功能 。 
18. 什么 是 冻结 窗 格 ? 


19. 创建 一 个 条 形 图 ， 需 要 调用 哪 5 个 函数 和 方法 ? 





12.13 实践 项 日 
作为 实践 ， 编 程 执行 以 下 任务 。 
12.13.1 乘法 表 


创建 程序 multiplicationTable.py， 从 命令 行 接受 数字 N， 在 一 个 Excel 
电子 表格 中 创建 一 个 NxN 的 乘法 表 。 人 例如， 如果 这 样 执行 程序 : 


py multiplicationTable.py 6 





它 应 该 创建 一 个 图 12-11 所 示 的 电子 表格 。 





”| C D E F 6 H 
a] | 1 2 3 4 5 6 

2 1 1 2 3 4 5 6 

3 2 2 4 6 10 12 

4 3 3 6 9 12 15 18 

5 4 4 8 12 16 20 24 

6 5 5 10 15 20 25 30 

7 6 6 12 18 24 30 36 

8 

9 














图 12-11 在 电子 表格 中 生成 的 乘法 表 


行 1 和 列 A 应 该 用 做 标签 ， 应 该 使 用 粗 体 。 


12.13.2 空 行 插 入 程序 


创建 一 个 程序 blankRowInserter.py， 它 接受 两 个 整数 和 一 个 文件 名 
字符 串 作 为 命令 行 参数 。 我 们 将 第 一 个 整数 称 为 N， 第 二 个 整数 称 为 
M。 程序 应 该 从 第 N 行 开始 ， 在 电子 表格 中 插入 M 个 空 行 。 例 如 ， 如 果 
这 样 执 行程 序 : 


python blankRowInserter.py 3 2 myProduce.xlsx 





执行 之 前 和 之 后 的 电子 表格 ， 应 该 如 图 12-12 所 示 。 




















Al v f| Potatoes Al X fe| Potatoes 
A B C D E F bea B Cc D E F 
1 |Potatoes Icelery Ginger Yellow pep Green bea Fava bq | 1 |Potatoes |celery Ginger Yellow per Green bea Fava bq 
2 Okra Okra Corn Garlic Tomatoes Yellow 2 Okra Okra Corn Garlic Tomatoes Yellow 
3 Favabean:Spinach Grapefruit Grapes Apricots Papaya 3 
f 4 Watermel Cucumber Ginger Watermel' Red onion Buttery 4 
| 5 Garlic Apricots Eggplant Cherries Strawberri Apricot 5 Favabean:Spinach Grapefruit Grapes Apricots Papayd 
| 6 Parsnips Okra Cucumber Apples Grapes Avocad 6 Watermel: Cucumber Ginger Watermek Red onion Butterl 
| 7 Asparagus Fava bean: Green cabl Grapefruit Ginger Buttery |] 7 Garlic Apricots Fggplant Cherries Strawberri Apricot 
| 8 Avocados Watermelk Eggplant Grapes Strawberri Celery | 8 Parsnips Okra Cucumber Apples Grapes Avocad 











图 12-12 之 前 (左边 ) 和 之 后 (右边) 在 第 三 行 插入 两 个 空 行 


程序 可 以 这 样 写 ; 读 入 电子 表格 的 内 容 ， 然 后 在 写 入 新 的 电子 表格 
ee ee ee ee eee ea 
y 子 o 


12.13.3 电子 表格 单元 格 翻转 程序 


编写 一 个 程序 ， 翻 转 电子 表格 中 行 和 列 的 单元 格 。 例 如 ， 第 5 行 第 3 
列 的 值 将 出 现在 第 3 行 第 5 列 〈《 反 之 亦 然 ) 。 这 应 该 针对 电子 表格 中 所 有 
单元 格 进行 。 例 如 ， 之 前 和 之 后 的 电子 表格 应 该 看 起 来 如 图 12-13 所 
ZN o 














A1 -( fe ITEM 


| Re C D E F G H l J 
1 [mem lsow 
2 Eggplant 334 
3 Cucumber 252 
f 4 Green cabl 238 
| 5 Eggplant 516 
f 6 Garlic 98 
| 7 Parsnips 16 
| 8 Asparagus 335 
| 9 Avocados 84 


10 








| AL ~ fe ITEM 

| A B Ç D E G H | J 
1 [ITEM Eggplant Cucumber Green cabl Eggplant Garlic Parsnips Asparagus Avocados 
2 SOLD 334 252 238 516 98 16 335 84 
3 

| 4 

|s 

| 6 

|7 

8 
9 
10 





图 12-13 翻转 之 前 (上面 ) 和 之 后 〈 下 面 ) 的 电子 表格 


程序 可 以 这 样 写 : 利用 组 套 的 for 循 环 ， 将 电子 表格 中 的 数据 读 入 一 
个 列表 的 列表 。 这 个 数据 结构 用 sheetData[x][y] 表 示 列 x 和 行 y 处 的 单元 
在 写 入 新 电子 表格 时 ， 将 sheetData[ly][x] 写 入 列 x 和 行 y 处 的 
Ju 


12.13.4 文本 文件 到 电子 表格 


编写 一 个 程序 ， 读 入 几 个 文本 文件 的 内 容 《 可 以 目 己 创造 这 些 文本 
文件 ) ， 并 将 这 些 内 容 插入 一 个 电子 表格 ， 每 行 写 入 一 行文 本 。 第 一 个 
文本 文件 中 的 行将 写 入 列 A 中 的 单元 格 ， 第 二 个 文本 文件 中 的 行将 写 入 
列 B 中 的 单元 格 ， 以 此 类 推 。 


利用 File 对 象 的 readlines0 方 法 ， 返 回 一 个 字符 串 的 列表 ， 每 个 字符 


捉 就 是 文件 中 的 一 行 。 对 于 第 一 个 文件 ， 将 第 一 行 输出 到 列 1 行 1]。 第 二 





行 应 该 写 入 列 1 行 2， 以 此 类 推 。 下 一 个 用 readlines() 读 入 的 文件 将 写 入 
列 2， 再 下 一 个 写 入 列 3， 以 此 类 推 。 


12.13.5 电子 表格 到 文本 文件 
编写 一 个 程序 ， 执 行 前 一 个 程序 相反 的 任务 。 该 程序 应 该 打开 一 个 


电子 表格 ， 将 列 A 中 的 单元 格 写 入 一 个 文本 文件 ， 将 列 B 中 的 单元 格 写 
入 为 一 个 文本 文件 ， 以 此 类 推 。 





第 13 章 ”人 处理 PDF 和 Word 文 档 


PDF 和 Word 文 档 是 二 进 制 文件 ， 所 以 它们 比 纯 文本 文件 要 复杂 得 
多 。 除 了 文本 之 外 ， 它 们 还 保存 了 许多 字体 、 颜 色 和 布局 信息 。 如 果 希 
望 程序 能 读 取 或 写 入 PDF 和 Word 文 档 ， 需 要 做 的 束 不 只 是 将 它们 的 文件 
名 传递 给 open()。 


好 在 ， 有 一 些 Python 模 块 。 使 得 处 理 PDF 和 Word 文 档 变 得 容易 。 本 
章 将 介绍 两 个 这 样 的 模块 。 








13.1 PDF 文 档 


PDF 表示 Portable Document Format， 使 用 .pdf 文件 扩展 名 。 虽 然 PDF 
文 持 许多 功能 ， 但 本 章 将 专注 于 最 常 做 的 两 件 事 从 PDF 读 取 文本 内 容 
和 从 已 有 的 文档 生成 新 的 PDF。 


用 于 处 理 PDE 的 模块 是 PyPDF2。 要 安装 它 ， 束 从 命令 行 运行 pip 
install PyPDF2。 这 个 模块 名 称 是 区 分 大 小 写 的 ， 所 以 要 确保 y 是 小 写 ， 
其 他 字母 都 是 大 写 (请 查看 附录 A， 了 解 安装 第 三 方 模块 的 所 有 细 
W) 。 如 果 该 模块 安装 正确 ， 在 交互 式 环境 中 运行 import PYPDF2, M 
该 不 会 显示 任何 错误 。 























13.1.1 从 PDF 提取 文本 


PyPDF2 没 有 办 法 从 PDF 文档 中 提取 图 像 、 图 表 或 其 他 媒体 ， 但 它 
可 以 提取 文本 ， 并 将 文本 返回 为 Python 字符 串 。 为 了 开始 学 习 PyPDF2 
的 工作 原理 ， 我 们 将 它 用 于 一 个 示例 PDF， 如 图 13-1 所 示 。 
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图 13-1 PDF 页 面 ， 我 们 将 从 中 提取 文本 











加 有 问题 的 PDF 格式 


虽然 PDF 文件 对 文本 布局 非常 好 ， 让 人 们 很 容易 打印 并 阅读 ， 但 软件 要 将 它们 解析 为 纯 文 本 却 
并 不 容易 。 因 此 ，PyPDF2 从 PDF 提 取 文 本 时 可 能 会 出 错 ， 甚 至 根本 不 能 打开 某 些 PDF。 闭 憾 
的 是 ， 你 对 此 没有 什么 办 法 ，PyPDF2 可 能 就 是 不 能 处 理 某 些 PDF 文 件 。 话 虽 这 样 说 ， 我 至 今 
1 没有 发 现 不 能 用 PyPDF2 打 开 的 PDF 文件 。 






































从 http:/nostarch.comy/automatestuff/ 下 载 这 个 PDF 文件 ， 并 在 交互 式 
环境 中 输入 以 下 代码 : 


>>> import PyPDF2 


>>> pdfFileObj = open('meetingminutes.pdf', 'rb') 


>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj ) 


>>> pdfReader.numPages 


19 
>>> pageObj = pdfReader.getPage(@) 


>>> pageObj.extractText() 


"OOFFFFIICCIIAALL BBOOAARRDD MMIINNUUTTEESS Meeting of March 7, 2015 
\n The Board of Elementary and Secondary Education shall provide lea 
and create policies for education that expand opportunities for children, 
empower families and communities, and advance Louisiana in an increasing] 
competitive global market. BOARD of ELEMENTARY and SECONDARY EDUCATION ' 





pT 


首先 ， 导 入 PyPDF2 模 块 。 然 后 以 读 二 进 制 模式 打开 
meetingminutes.pdf， 并 将 它 保 存在 pdfFileObj 中 。 为 了 取得 表示 这 个 PDF 
的 PdfFileReader 对 象 ， 调 用 PyPDF2. PdfFileReader() 并 向 它 传 入 
pdfFileObj。 将 这 个 PdfFileReader 对 象 保 存在 pdfReader 中 。 


该 文档 的 总 页 数 保存 在 PdfFileReader 对 象 的 numPages 属 性 中 @@, 示 
例 PDF 文 要 有 19 页 ， 但 我 们 只 提取 第 一 页 的 文本 。 


要 从 一 页 中 提取 文本 ， 需 要 通过 PdfFileReader 对 象 取得 一 个 Page 对 
象 ， 它 表示 PDF 中 的 一 页 。 可 以 调用 PdfFileReader 对 象 的 getPage() 方 法 
A 回 它 传 入 感 兴 趣 的 页 码 〈 在 我 们 的 例子 中 是 0) ， 从 而 取得 Page 对 











PyPDF2 在 取得 页 面 时 使 用 从 0 开始 的 下 标 : 第 一 页 是 0 页 ， 第 二 页 
是 1 页 ， 以 此 类 推 。 事情 总 是 这 样 ， 即 使 文档 中 页 面 的 页 码 不 同 。 例 
如 ， 假 定 你 的 PDF 是 从 一 个 较 长 的 报告 中 抽取 出 3 页 ， 它 的 页 人 码 分 别 是 
42、43 和 44， 要 取得 这 个 文档 的 第 一 页 ， 需 要 调用 
pdfReader.getPage(0)， 而 不 是 getPage(42) 或 getPage(1)。 








在 取得 Page 对 象 后 ， 调 用 它 的 extractText0) 方 法 ， 返 回 该 页 文本 的 字 
符 串 全 @。 文 本 提取 并 不 完美 : 该 PDF 中 的 文本 Charles E.“Chas”Roemer, 
President， 在 函数 返回 的 字符 串 中 消失 了 ， 而 且 空 格 有 时 候 也 会 没有 。 
但 是 ， 这 种 近似 的 PDF 文本 内 容 ， 可 能 对 你 的 程序 来 说 已 经 足够 了 。 


13.1.2 解密 PDF 
某 些 PDF 文档 有 加 密 功 能 ， 以 防止 别人 了 阅读， 只 有 在 打开 文档 时 提 


供 口 令 才 能 阅读 。 在 交互 式 环 境 中 输入 以 下 代码 ， 处 理 下 载 的 PDF， 它 
已 经 用 口令 rosebud 加 密 : 





>>> import PyPDF2 


>>> pdfReader = PyPDF2.PdfFileReader(open('encrypted.pdf', 'rb')) 


@ >>> pdfReader.isEncrypted 


True 
>>> pdfReader.getPage(@) 


@ Traceback (most recent call last): 
File "< pyshell#173>", line 1, in < module> 
pdfReader.getPage() 
--snip 


File "C:\Python34\lib\site-packages\PyPDF2\pdf.py", line 1173, in getObje 
raise utils.PdfReadError("file has not been decrypted") 

PyPDF2.utils.PdfReadError: file has not been decrypted 

© >>> pdfReader.decrypt('rosebud' ) 


1 
>>> pageObj = pdfReader.getPage(Q@) 





所 有 PdfFileReader 对 象 都 有 一 个 isEncrypted 必 性， 如 果 PDF 是 加 密 
的 ， 它 就 是 True， 如 果 不 是 ， 它 就 是 False@。 在 文件 用 正确 的 口令 解密 
之 前 ， 尝 试 调用 函数 来 读 取 文件 ， 将 会 导致 错误 人 @。 


要 读 取 加 密 的 PDFE， 就 调用 decryptO 函 数 ， 传 入 口令 字符 串 母 . 在 
用 正确 的 口令 调用 decryptO 后 ， 你 会 看 到 调用 getPage(0) 不 再 导致 错误 。 
如 果 提 供 了 错误 的 口令 ，decryptO 函 数 将 返回 0， 并 且 getPage0 会 继续 失 
败 。 请 注意 ，decrypt0 方 法 只 解密 了 PdfFileReader 对 象 ， 而 不 是 实际 的 
PDF 文件 。 在 程序 中 止 后 ， 硬 盘 上 的 文件 仍然 是 加 密 的 。 程 序 下 次 运行 
时 ， 仍 然 需 要 再 次 调用 decrypt()。 





13.1.3 创建 PDF 


在 PyPDF2 中 ， 与 PdfFileReader 对 象 相对 的 是 PdfFileWriter 对 象 ， 它 
可 以 创建 一 个 新 的 PDF 文 件 。 但 PyPDF2 不 能 将 任意 文本 写 入 PDF， 就 像 
Python 可 以 写 入 纯 文 本 文件 那样 。PyPDF2 写 入 PDF 的 能 力 ， 仅 限于 从 其 
他 PDF 中 拷贝 页 面 、 旋 转 页 面 、 重 膨 页 面 和 加 密 文件 。 


模块 不 允许 直接 编辑 PDF。 必 须 创建 一 个 新 的 PDF， 然 后 从 已 有 的 
文档 找 贝 内 容 。 本 市 的 例子 将 遵循 这 种 一 般 方 式 : 


1. 打开 一 个 或 多 个 已 有 的 PDF ( 源 PDF) ， 得 到 PdfFileReader 对 
象 。 


2. 创建 一 个 新 的 PdfFileWriter 对 象 。 





3. 将 页 面 从 PdfFileReader 对 象 找 由 到 PdfFileWriter 对 象 中 。 
4. 最 后 ， 利 用 PdfFileWriter 对 象 写 入 输出 的 PDF。 


创建 一 个 PdfFileWriter 对 象 ， 只 是 在 Python 中 创建 了 一 个 代表 PDF 
文档 的 值 ， 这 并 没有 创建 实际 的 PDF 文件 ， 要 实际 生成 文件 ， 必 须 调用 
PdfFileWriter 对 象 的 write() 方 法 。 


write() 方 法 接受 一 个 普通 的 File 对 象 ， 它 以 写 二 进 制 的 模式 打开 。 


你 可 以 用 两 个 参数 调用 Python 的 open0 函 数 ， 得 到 这 样 的 File 对 象 : 一 个 
是 要 打开 的 PDF 文件 名 字符 串 ， 一 个 是 "wb'， 表 明文 件 应 该 以 与 二进制 


的 模式 打开 。 


如 果 这 听 起 来 有 些 令 人 困惑 ， 不 用 担心 ， 在 接 下 来 的 代码 示例 中 ， 
你 会 看 到 这 种 工作 方式 。 


13.1.4 拷贝 页 面 


可 以 利用 PyPDF2， 从 一 个 PDF 文档 拷贝 页 面 到 另 一 个 PDF 文档 。 这 
让 你 能 够 组 合 多 个 PDF 文件 ， 去 除 不 想 要 的 页 面 ， 或 调整 页 面 的 次 序 。 





从 http://nostarch.com/automatestuff/ 下 载 meetingminutes.pdf 和 
meetingminutes2.pdf， 放 在 当前 工作 目录 中 。 在 交互 式 环境 中 输入 以 下 
代码 : 








>>> import PyPDF2 


>>> pdf1File = open('meetingminutes.pdf', 'rb') 


>>> pdf2File = open('meetingminutes2.pdf', 'rb') 


@ >>> pdf1Reader = PyPDF2.PdfFileReader (pdfiFile) 


@ >>> pdf2Reader = PyPDF2.PdfFileReader (pdf2File) 


© >>> pdfWriter = PyPDF2.PdfFileWriter() 


>>> for pageNum in range(pdfiReader.numPages) : 


© pageObj = pdf1Reader .getPage(pageNum) 


9 pdfWriter .addPage(pageObj) 


>>> for pageNum in range(pdf2Reader.numPages) : 


@ pageObj = pdf2Reader .getPage(pageNum) 


9 pdfWriter .addPage(pageObj) 


© >>> pdfOutputFile = open('combinedminutes.pdf', 'wb') 


>>> pdfWriter.write(pdfOutputFile) 


>>> pdfOutputFile.close() 


>>> pdfiFile.close() 


>>> pdf2File.close() 





以 读 二 进 制 的 模式 打开 两 个 PDF 文件 ， 将 得 到 的 两 个 File 对 象 保存 
在 pdf1File 和 pdf2File 中 。 调 用 PyPDF2.PdfFileReader()， 传 入 pdf1File， 
得 到 一 个 表示 meetingminutes.pdf 的 PdfFileReader 对 象 @。 再 次 调用 
PyPDF2.PdfFileReader()， 传 入 pdf2File， 得 到 一 个 表示 
meetingminutes2.pdf 的 PdfFileReader 对 象 信 。 然 后 创建 一 个 新 的 
PdfFileWriter 对 象 ， 它 表示 一 个 空白 的 PDF 文 档 @，。 


接 下 来 ， 从 两 个 源 PDF 找 贝 所 有 的 页 面 ， 将 它们 添加 到 
PdfFileWriter 对 象 。 在 PdfFileReader 对 象 上 调用 getPage()， 取 得 Page 对 象 
人 @。 人 然后 将 这 个 Page 对 象 传 递 给 PdfFileWriter 的 addPage() 方 法 @。 这 些 
步骤 先是 针对 pdf1Reader 进 行 ， 然 后 再 针对 pdf2Reader 进 行 。 在 找 贝 页 
面 完 成 后 ， 癌 PdfFileWriter 的 write() 方 法 传 入 一 个 File 对 象 ， 写 入 一 个 新 
的 PDF 文档 ， 名 为 combinedminutes.pdf@ . 


ye ae 


PyPDF2 不 能 在 PdfFileWriter 对 象 中 间 插 入 页 











面 ，addPage() 方 法 只 能 够 在 末尾 添加 页 面 。 


现在 你 创建 了 一 个 新 的 PDF 文 件 ， 将 来 自 meetingminutes.pdf 和 
meetingmin utes2.pdf 的 页 面 组 合 在 一 个 文档 中 。 要 记 住 ， 传 递 给 
PyPDF2.PdfFileReader() 的 File 对 象 ， 需 要 以 读 二 进 制 的 方式 打开 。 即 使 
用 'rb' 作 为 open0) 的 第 二 个 参数 。 类 似 的 ， 传 入 PyPDF2.PdfFileWriter() 的 
File 对 象 需要 以 写 二 进 制 的 模式 打开 ， 即 使 用 "wb'。 


13.1.5 旋转 页 面 


利用 rotateClockwise() 和 rotateCounterClockwise() 方 法 ，PDF 文 档 的 
页 面 也 可 以 旋转 90 度 的 整数 倍 。 向 这 些 方法 传 入 整数 90、180 或 270 就 可 
以 了 。 在 交互 式 环境 中 输入 以 下 代码 ， 同 时 将 meetingminutes.pdf 放 在 当 
前 工作 目录 中 : 




















>>> import PyPDF2 


>>> minutesFile = open('meetingminutes.pdf', 'rb') 


>>> pdfReader = PyPDF2.PdfFileReader(minutesFile) 


@ >>> page = pdfReader.getPage(@) 


@ >>> page.rotateClockwise(9@) 


{'/Contents': [IndirectObject(961, ©), IndirectObject(962, @), 


--snip 


} 
>>> pdfWriter = PyPDF2.PdfFileWriter() 


>>> pdfWriter.addPage(page) 


©>>> resultPdfFile = open('rotatedPage.pdf', 'wb') 


>>> pdfWriter.write(resultPdfFile) 


>>> resultPdfFile.close() 


>>> minutesFile.close() 





这 里 ， 我 们 使 用 getPage(0) 来 选择 PDF 的 第 一 页 @， 然 后 对 该 页 调用 
rotateClockwise(90) 人 @。 我 们 将 旋转 过 的 页 面 写 入 一 个 新 的 PDF 文 档 ， 并 
保存 为 rotatedPage.pdf@。 


得 到 的 PDF 文件 有 一 个 页 面 ， 顺 时 针 旋 转 了 90 度 ， 如 图 13- 278 « 
rotateClockwise() 和 rotateCounterClockwise() 的 返回 值 包含 许多 信息 ， 你 
可 以 忽略 。 
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图 13-2 rotatedPage.pdf 文 件 ， 页 面 顺 时 针 旋 转 了 90 度 


13.1.6 J0 H H 


PyPDF2 也 可 以 将 一 页 的 内 容 登 加 到 另 一 页 上 ， 这 可 以 用 来 在 页 面 
上 上 添加 公司 标记、 时 间 玲 或 水 印 。 利 用 Python， 很 容易 为 多 个 文件 添加 
水 印 ， 并 且 只 针对 程序 指定 的 页 面 添加 。 


从 http:/nostarch.comy/automatestuff/ 下载 watermark.pdf， 将 它 和 
meetingminutes.pdf 一 起 放 在 当前 工作 目录 中 。 然 后 在 交互 式 环境 中 输入 
以 下 代码 : 








>>> import PyPDF2 


>>> minutesFile = open('meetingminutes.pdf', 'rb') 


@ >>> pdfReader = PyPDF2.PdfFileReader (minutesFile) 


@ >>> minutesFirstPage = pdfReader.getPage(@) 


©>>> pdfWatermarkReader = PyPDF2.PdfFileReader(open('watermark.pdf', 'rb')) 


© >>> minutesFirstPage.mergePage(pdfWatermarkReader.getPage(@) ) 


© >>> pdfWriter = PyPDF2.PdfFileWriter() 


© >>> pdfWriter.addPage(minutesFirstPage) 


© >>> for pageNum in range(1, pdfReader.numPages) : 


pageObj = pdfReader.getPage(pageNum) 


pdfWriter .addPage(pageObj) 


>>> resultPdfFile = open('watermarkedCover.pdf', 'wb') 


>>> pdfWriter.write(resultPdfFile) 


>>> minutesFile.close() 


>>> resultPdfFile.close() 





这 里 我 们 生成 了 meetingminutes.pdf 的 PdfFileReader 对 象 @。 调 用 
getPage(0)， 取 得 第 一 页 的 Page 对 象 ， 并 将 它 保 存在 minutesFirstPage 中 
全 。 人 然后 生成 了 watermark.pdf 的 PdfFileReader 对 象 人 @@， 并 在 
minutesFirstPage 上 调用 mergePage() 人 @。 传 递 给 mergePage() 的 参数 ， 是 
watermark.pdf 第 一 页 的 Page 对 象 。 


既然 我 们 已 经 在 minutesFirstPage 上 调用 了 mergePage()， 
minutesFirstPage 就 代表 加 了 水 印 的 第 一 页 。 我 们 创建 一 个 PdfFileWriter 
对 象 人 @， 并 加 入 加 了 水 印 的 第 一 页 @。 人 然后 循环 遍历 meetingminutes.pdf 
的 剩余 页 面 ， 将 它们 添加 到 PdfFileWriter 对 象 中 @@。 最 后 ， 我 们 打开 一 
个 新 的 PDF 文 件 watermarkedCover.pdf， 并 将 PdfFileWriter 的 内 容 写 入 该 
STF 


图 13-3 展示 了 结果 。 新 的 PDF 文件 watermarkedCover.pdf, 77 
meetingminutes.pdf 的 全 部 内 容 ， 并 在 第 一 页 加 了 水 印 。 
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图 13-3 最 初 的 PDF (Ai) 、 水 印 PDF CHE) 以 及 合并 的 PDF (右边 》 


13.1.7 加 密 PDF 


PdfFileWriter 对 象 也 可 以 为 PDF 文档 进行 加 密 。 在 交互 式 环境 中 输 
入 以 下 代码 : 








>>> import PyPDF2 


>>> pdfFile = open('meetingminutes.pdf', 'rb') 


>>> pdfReader = PyPDF2.PdfFileReader (pdfFile) 


>>> pdfWriter 


PyPDF2.PdfFileWriter() 


>>> for pageNum in range(pdfReader.numPages): 


pdfWriter .addPage(pdfReader .getPage(pageNum) ) 


@ >>> pdfWriter.encrypt('swordfish' ) 


>>> resultPdf = open('encryptedminutes.pdf', 'wb') 


>>> pdfWriter .write(resultPdf) 


>>> resultPdf.close() 





在 调用 write0) 方 法 保存 文件 之 前 ， 调 用 encrypt0 方 法 ， 传 入 口令 字 
符 串 @。PDF 可 以 有 一 个 用 户口 令 ( 人 允许 查看 这 个 PDF〉 和 一 个 拥有 者 
口令 (允许 设置 打印 、 注 释 、 提 取 文 本 和 其 他 功能 的 许可 ，。 用 户口 令 
和 拥有 者 口令 分 别 是 encryptO 的 第 一 个 和 第 二 个 参数 。 如 果 只 传 入 一 个 
字符 串 给 encrypt()， 它 将 作为 两 个 口令 。 


在 这 个 例子 中 ， 我 们 将 meetingminutes.pdf 的 页 面 拷贝 到 
PdfFileWriter 对 象 。 用 口令 swordfish 加 密 了 PdfFileWriter， 打 开 了 一 个 名 
为 encryptedminutes.pdf 的 新 PDF， 将 PdfFileWriter 的 内 容 写 入 新 PDF。 任 
何人 要 查看 encryptedminutes.pdf， 都 必须 输入 这 个 口令 。 在 确保 文件 的 
拷贝 被 正确 加 密 后 ， 你 可 能 会 删除 原来 的 未 加 密 的 文件 。 


13.2 项 目 : 从 多 个 PDF 中 合并 选择 的 页 面 








假定 你 有 一 个 很 无 聊 的 任务 ， 需 要 将 几 十 个 PDF 文件 合并 成 一 个 
PDF 文件 。 每 一 个 文件 都 有 一 个 封面 作为 第 一 页 ， 但 你 不 希望 合并 后 的 
文件 中 重复 出 现 这 些 封面 。 即 使 有 许多 免费 的 程序 可 以 合并 PDF， 很 多 
也 只 是 简单 的 将 文件 合并 在 一 起 。 让 我 们 来 写 一 个 Python 程序 ， 定 制 需 
要 合并 到 PDF 中 的 页 面 。 


。 找到 当前 工作 目录 中 所 有 PDF 文件 。 
。 按 文 件 名 排 厅 ， 这 样 束 能 有 序 地 添加 这 些 PDF。 
。 除了 第 一 页 之 外 ， 将 每 个 PDF 的 所 有 页 面 写 入 输出 的 文件 。 


从 实现 的 角度 来 看 ， 代 码 需 要 完成 下 列 任务 : 
o oe 找到 当前 工作 目录 中 的 所 有 文件 ， 去 除 掉 非 PDF 文 
。 调 用 Python 的 sort0) 列 表 方法 ， 对 文件 名 按 字母 排序 。 
e 为 输出 的 PDF 文件 创建 PdfFileWriter 对 象 。 
。 循环 通 历 每 个 PDF 文件 ， 为 它 创建 PdfFileReader 对 象 。 
。 针对 每 个 PDF 文件 ， 循 环 遍 历 每 一 页 ， 第 一 页 除外 。 


。 将 页 面 添加 到 输出 的 PDF。 
。 将 输出 的 PDF 写 入 一 个 文件 ， 名 为 <em>allminutes.pdf</em>。 


针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 右 窗 口 ， 将 它 保 存 为 
combinePdfs.py。 


第 1 步 : 找到 所 有 PDF 文件 


首 爷 ， 程 序 需要 取得 当前 工作 目录 中 所 有 带 .pdf 扩展 名 的 文件 列 
表 ， 并 对 它们 排序 。 让 你 的 代码 看 起 来 像 这 样 : 




















#! python3 
# combinepdfs.py - Combines all the PDFs in the current working directory 
# into a single PDF. 


@ import PyPDF2, os 


# Get all the PDF filenames. 
pdfFiles = [] 
for filename in os.listdir('.'): 


if filename.endswith('.pdf'): 
© pdfFiles.append(filename) 
© pdfFiles.sort(key/str.lower) 
© pdfWriter = PyPDF2.PdfFileWriter() 
# TODO: Loop through all the PDF files. 


# TODO: Loop through all the pages (except the first) and add them. 


# TODO: Save the resulting PDF to a file. 





在 而 行 和 介绍 程序 做 什么 的 描述 性 注释 之 后 ， 代 码 导 入 了 os 和 
PyPDF2 模 块 @。os.listdir(.'") 调 用 将 返回 当前 工作 目录 中 所 有 文件 的 列 








表 。 代 码 循环 通 历 这 个 列表 ， 将 带 有 .pdf 扩展 名 的 文件 添加 到 pdfFiles 中 


四 .然后 ， 列 表 按 照 字 典 顺 序 排序 ， 调 用 sort0 时 带 有 key/str.lower 关 键 
FEO. 


代码 创建 了 一 个 PdfFileWriter 对 象 ， 保 存 合并 后 的 PDF 页 面 介 。 最 
后 ， 一 些 注 释 语句 简要 描述 了 剩 下 的 程序 。 


第 2 步 : 打开 每 个 PDF 文件 





现在 ， 程 序 必 须 读 取 pdfFiles 中 的 每 个 PDF 文件 。 在 程序 中 加 入 以 下 
RAG: 





#! python3 


# combinePdfs.py - Combines all the PDFs in the current working directory i 
# a single PDF. 


import PyPDF2, os 


# Get all the PDF filenames. 
pdfFiles = [] 
--snip 


# Loop through all the PDF files. 


for filename in pdfFiles: 


pdfFileObj = open(filename, 'rb') 


pdfReader = PyPDF2.PdfFileReader (pdfFileObj) 


# TODO: Loop through all the pages (except the first) and add them. 


# TODO: Save the resulting PDF to a file. 





针对 每 个 PDF 文件 ， 循 环 内 的 代码 调用 opean0， 以 'wb' 作 为 第 二 个 参 
数 ， 用 读 二 进 制 的 模式 打开 文件 。open0 调 用 返回 一 个 File 对 象 ， 它 被 
传递 给 PyPDF2.PdfFileReader0， 创 建 针 对 那个 PDF 文件 的 PdfFileReader 


对 象 。 





第 3 步 : 添加 每 一 页 





针对 每 个 PDF 文 件 ， 需 要 循环 遍历 每 一 页 ， 第 一 页 除外 。 在 程序 中 
添加 以 下 代码 : 


#! python3 


# combinePdfs.py - Combines all the PDFs in the current working directory 
# a single PDF. 


import PyPDF2, os 


--snip 


# Loop through all the PDF files. 
for filename in pdfFiles: 
--snip 


# Loop through all the pages (except the first) and add them. 


for pageNum in range(1, pdfReader.numPages) : 


pageObj = pdfReader.getPage(pageNum) 


pdfWriter .addPage(pageObj) 


# TODO: Save the resulting PDF to a file. 


pO 


for 循 环 内 的 代码 将 每 个 Page 对 象 找 贝 到 PdfFileWriter 对 象 。 要 记 
住 ， 你 需要 跳 过 第 一 页 。 因 为 PyPDF2 认 为 0 是 第 一 页 ， 所 以 循环 应 该 从 
1 开始 @， 人 然后 向 上 增长 到 pdfReader.numPages 中 的 整数 ， 但 不 包括 它 。 


第 4 步 : 保存 结果 
在 这 些 仍 套 的 for 循 环 完成 后 ，pdfWriter 变 量 将 包含 一 个 


PdfFileWriter 对 象 ， 合 并 了 所 有 PDF 的 页 面 。 最 后 一 步 是 将 这 些 内 容 写 
入 人 硬盘 上 的 一 个 文件 。 在 程序 中 添加 以 下 代码 : 








#! python3 

# combinepdfs.py - Combines all the PDFs in the current working directory i 
# a single PDF. 

import PyPDF2, os 


--snip 


# Loop through all the PDF files. 
for filename in pdfFiles: 
--snip 


# Loop through all the pages (except the first) and add them. 


for pageNum in range(1, pdfReader.numPages): 


--snip 


# Save the resulting PDF to a file. 


pdfOutput = open('allminutes.pdf', 'wb') 


pdfWriter.write(pdfOutput ) 


pdfOutput.close() 





癌 open0 传 入 'wb'， 以 写 二 进 制 的 模式 打开 输出 PDF 文件 
allminutes.pdf。 然 后 ， 将 得 到 的 File 对 象 传 给 write() 方 法 ， 创 建 实际 的 
PDF 文件 。 调 用 close(0) 方 法 ， 结 束 程序 。 


第 5 步 : 类 似 程序 的 想法 


能 够 利用 其 他 PDF 文 件 的 页 面 创建 PDF 文 件 ， 这 让 你 的 程序 能 完成 
LES: 


。 从 PDF 文件 中 截取 特定 的 页 面 。 

。 重新 调整 PDF 文件 中 页 面 的 次 序 。 

e 创建 一 个 PDF 文件 ， 只 包含 那些 具有 特定 文本 的 页 面 。 文 本 由 
extractText() 来 确定 。 





13.3 Word 文 档 


利用 python-docx 模 块 ，Python 可 以 创建 和 修改 Word 文 档 ， 它 种 
有 .docx 文 件 扩展 名 。 运 行 pip install python-docx， 可 以 安装 该 模块 〈( 附 
录 人 A 介绍 了 安装 第 三 方 模块 的 细节 )〉。 


Sy 


OSI 参 考 模型 最 初 是 在 1983 年 由 国际 标准 化 组 织 出 版 ， 标 准 号 为 ISO 7498。 在 第 一 次 用 pip 安 装 
python-docx 时 ， 注 意 要 安装 python-docx， 而 不 是 docx。 安 装 名 称 docx 是 指 男 一 个 模块 ， 本 书 
没有 介绍 。 但 是 ， 在 导入 python-docx 模 块 时 ， 需 要 执行 import docx， 而 不 是 import python- 
docx. 










































































如 果 你 没有 Word 软 件 ，LibreOffice Writer 和 OpenOffice Writer 都 是 
免费 的 蔡 代 软件 ， 它 们 可 以 在 Windows、OS X 和 Linux 上 打开 .docx 文 
件 。 可 以 分 别 从 https://www.libreoffice.org 和 http://openoffice.org 下 载 它 
们 。python-docx 的 完整 文档 在 https://python-docx.readthedocs.org/ 。 尽 管 
有 针对 OS X 平 台 的 Word 版 本 ， 但 本 章 将 使 用 Windows 平 台 的 Word。 


和 纯 文 本 相 比 ，.docx 文 件 有 很 多 结构 。 这 些 结构 在 python-docx 中 
用 3 种 不 同 的 类 型 来 表示 。 在 最 高 一 层 ，Document 对 象 表 示 整 个 文档 。 
Document 对 象 包含 一 个 Paragraph 对 象 的 列表 ， 表 示 文 档 中 的 段落 (用 
户 在 Word 文 档 中 输入 时 ， 如 果 按 下 回 车 ， 新 的 段落 就 开始 了 )〉 。 每 个 
so 图 13-4 中 的 单 句 段 落 有 4 个 
RunxXy ZR. 


A plain paragraph with some bold and some italic 
Eo 








Run Run Run Run 





图 13-4 一 个 Paragraph 对 象 中 识别 的 Run 对 象 


Word 文 档 中 的 文本 不 仅仅 是 字符 串 。 它 包含 与 之 相关 的 字体 、 大 
小 、 颜 色 和 其 他 样式 信息 。 在 Word 中 ， 样 式 是 这 些 属性 的 集合 。 一 个 
Run 对 象 是 相同 样式 文本 的 延续 。 当 文本 样式 发 生 改 变 时 ， 就 需要 一 个 
新 的 Run 对 象 。 











13.3.1 读 取 Word 文 档 


让 我 们 尝试 使 用 python-docx 模 块 。 从 
http://nostarch.com/automatestuff/ 下 载 demo.docx， 并 将 它 保存 在 当前 工 
作 目 录 中 。 然 后 在 交互 式 环境 中 输入 以 下 代码 : 








>>> import docx 


@ >>> doc = docx.Document('demo.docx') 


@ >>> len(doc.paragraphs) 


7 
© >>> doc.paragraphs[@].text 


"Document Title’ 
@ >>> doc.paragraphs[1].text 


"A plain paragraph with some bold and some italic' 
© >>> len(doc.paragraphs[1].runs) 


4 
© >>> doc.paragraphs[1].runs[@].text 


"A plain paragraph with some ' 
@ >>> doc.paragraphs[1].runs[1].text 


‘bold' 
© >>> doc.paragraphs[1].runs[2].text 


”and some ' 
© >>> doc.paragraphs[1].runs[3].text 


‘italic' 





在 @ 行 ， 我 们 在 Python 中 打开 了 一 个 .docx 文 件 ， 调 用 
docx.Document()， 传 入 文件 名 demo.docx。 这 将 返回 一 个 Document 对 
象 ， 它 有 paragraphs 属 性 ， 是 Paragraph 对 象 的 列表 。 如 果 我 们 对 
doc.paragraphs 调 用 len()， 将 返回 7。 这 告诉 我 们 ， 该 文档 有 7 个 Paragraph 


对 象 信 。 每 个 Paragraph 对 象 都 有 一 个 text 属 性 ， 包 含 该 段 中 文本 的 字符 
串 ( 没 有 样式 信息 ) 。 这 里 ， 第 一 个 text 属 性 包 售 'DocumentTitle'@， 第 
二 个 包含 'A plain paragraph with some bold and some italic'@. 


每 个 Paragraph 对 象 也 有 一 个 runs 属 性 ， 它 是 Run 对 象 的 列表 。Run 对 
象 也 有 一 个 text 属 性 ， 包 含 那 个 延续 中 的 文本 。 我 们 看 看 第 二 个 
Paragraph 对 象 中 的 text 属 性 ，'A plain paragraph with some bold and some 
italic'。 对 这 个 Paragraph 对 象 调用 len()， 结 果 告 诉 我 们 有 4 个 Run 对 象 
加 。 第 一 个 对 象 包含 'A plain paragraph with some '@。 然 后， 文本 变 为 
粗 体 样式 ， 所 以 'bold? 开 始 了 一 个 新 的 Run 对 象 @。 在 这 之 后 ， 文 本 又 回 
到 了 非 粗 体 的 样式 ， 这 导致 了 第 三 个 Run 对 象 ，' and some '@。 最 后 ， 
第 四 个 对 象 包含 'italic， 是 斜体 样式 @@. 


有 了 python-docx，Python 程 序 束 能 从 .docx 文 件 中 读 取 文本 ， 像 其 他 
的 字符 串 值 一 样 使 用 它 。 
13.3.2 从 .docx 文 件 中 取得 完整 的 文本 


如 有 果 你 只 关心 Word 文 档 中 的 文本 ， 不 关心 样式 信息 ， 就 可 以 利用 
getTextO 函 数 。 它 接受 一 个 .docx 文 件 名 ， 返 回 其 中 文本 的 字符 串 。 打 开 
一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 readDocx.py: 








#! python3 
import docx 
def getText(filename): 


doc = docx.Document (filename) 
fullText = [] 


for para in doc.paragraphs: 
fullText.append(para.text) 
return '\n'.join(fullText) 





getText() 函 数 打开 了 Word 文 档 ， 循 环 裔 历 paragraphs 列 表 中 的 所 有 
Paragraph 对 象 ， 然 后 将 它们 的 文本 添加 到 fullText 列 表 中 。 循 环 结束 
后 ，fullText 中 的 字符 串 连 接 在 一 起 ， 中 间 以 换行 符 分 隔 。 


readDocx.py 程 序 可 以 像 其 他 模块 一 样 导 入 。 现 在 如 果 你 只 需要 
Word 文 档 中 的 文本 ， 就 可 以 输入 以 下 代码 : 





>>> import readDocx 


>>> print(readDocx.getText('demo.docx')) 


Document Title 

A plain paragraph with some bold and some italic 
Heading, level 1 

Intense quote 

first item in unordered list 

first item in ordered list 





也 可 以 调整 getText()， 在 返回 字符 串 之 前 进行 修改 。 例 如 ， 要 让 每 
一 段 缩 进 ， 就 将 文件 中 的 append0O) 调 用 替换 为 : 


fullText.append(" ' + 


para.text) 





要 在 段落 之 间 增 加 空 行 ， 就 将 join0 调 用 代码 改 成 : 


return '\n\n 


'.join(fullText) 








可 以 看 到 ， 只 需要 几 行 代码 ， 束 可 以 写 出 函数 ， 读 取 .docx 文 件 ， 根 
据 需要 返回 它 的 内 容 字符 串 。 


13.3.3 设置 Paragraph 和 Run 对 象 的 样式 


在 Windows 平 台 的 Word 中 ， 你 可 以 按 下 Ctrl-AltrShift-S， 显 示 样 式 
窗口 并 查看 样式 ， 如 图 13-5 所 示 。 在 OS X 上 ， 可 以 点 击 ViewStyles 菜 单 
项 ， 查 看 样式 窗口 。 


Word 和 其 他 文字 处 理 软件 利用 样式 ， 保 持 类 似 类 型 的 文本 在 视觉 
展现 上 一 致 ， 并 易于 修改 。 例 如 ， 也 许 你 希望 将 内 容 段 落 设 置 为 11 点 ， 
Times New Roman， 左 对 齐 ， 右 边 不 对 齐 的 文本 。 可 以 用 这 些 设置 创建 
一 种 样式 ， 将 它 赋 给 所 有 的 文本 段落 。 然 后 ， 如 果 稍 后 想 改 变 文档 中 所 
有 内 容 段 落 的 展现 形式 ， 只 要 改变 这 种 样式 ， 所 有 段落 都 会 自动 更 新 。 
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图 13-5 在 Windows 平 台 上 按 下 Ctrl-Alt-Shift-S， 显 示 样 式 窗 口 


对 于 Word 文 档 ， 有 3 种 类 型 的 样式 ， 段落 样式 可 以 应 用 于 Paragraph 
对 象 ， 字 符 样 式 可 以 应 用 于 Run 对 象 ， 链 接 的 样式 可 以 应 用 于 这 两 种 对 
象 。 可 以 将 Paragraph 和 Run 对 象 的 style 属 性 设置 为 一 个 字符 串 ， 从 而 设 
置 样式 。 这 个 字符 串 应 该 是 一 种 样式 的 名 称 。 如 果 style 被 设置 为 None， 
就 没有 样式 与 Paragraph 或 Run 对 象 关 联 。 


默认 Word 样 式 的 字符 串 如 下 : 





‘Normal ' ‘Headings ' "ListBullet' ‘ListParagraph' 


"BodyText ‘Heading6' "ListBullet2' ‘MacroText' 
“BodyText2 ‘Heading? ' "ListBullet3' ‘NoSpacing' 
‘BodyText3 ' ‘Headings ' "ListContinue' ‘Quote’ 
‘Caption’ 'Heading9 ' 'ListContinue2' 'Subtitle' 
‘Heading1' ‘IntenseQuote' "ListContinue3 ' ‘TOCHeading' 
‘Heading2 ' “List "ListNumber' "Tatler 
'Heading3' 'List2' "ListNumber2' 

‘Heading4' gy "ListNumber3' 


在 设置 style 属 性 时 ， 不 要 在 样式 名 称 中 使 用 空格 。 例 如 ， 样 式 名 称 
可 能 是 Subtle Emphasis， 你 应 该 将 属性 设置 为 字符 串 'SubtleEmphasis'， 
而 不 是 'Subtle Emphasis'。 包 含 空格 将 导致 Word 误 读 样 式 名 称 ， 并 且 应 
用 失败 。 


如 有 果 对 Run 对 象 应 用 链接 的 样式 ， 需 要 在 样式 名 称 末尾 加 上 'Char 。 
例如 ， 对 Paragraph 对 象 设置 Quote 链 接 的 样式 ， 应 该 使 用 
paragraphObj.style = 'Quote'。 但 对 于 Run 对 象 ， 应 该 使 用 runObj.style = 
‘QuoteChar'. 


在 当前 版 本 的 python-docx (0.7.4) 中 ， 只 能 使 用 默认 的 Word 样 式 ， 
以 及 打开 的 文件 中 己 有 的 样式 ， 不 能 创建 新 的 样式 ， 但 这 一 点 在 将 来 的 
模块 版 本 中 可 能 会 改变 。 


13.3.4 创建 带 有 非 默 认 样 式 的 Word 文 档 
如 果 想 要 创建 的 Word 文 档 使 用 默认 样式 以 外 的 样式 ， 束 需要 打开 


一 个 空白 Word 文 要 ， 通 过 点 击 样 式 窗口 底部 的 New Style 按 钮 ， 自 己 创 
建 样式 〈 图 13-6 展 示 了 Windows 平 台 上 的 情形 ) 。 
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图 13-6 新 建 样式 按 扭 〈 左 边 ) 和 “根据 格式 设置 创建 新 样式 ”对 话 框 右边) 








Style: Quick Style 
Based on: Normal 











这 将 打开 “Creat New Style from Formatting” 对 话 框 ， 在 这 里 可 以 输 
入 新 样式 。 然 后 ， 回 到 交互 式 环 境 ， 用 docx.Document() 打 开 这 个 空白 
Word 文 档 ， 利 用 它 作 为 Word 文 档 的 基础 。 这 种 样式 的 名 称 现在 就 可 以 
被 python-docx 使 用 了 。 





13.3.5 Run 属 性 


通过 text 属 性 ，Run 可 以 进一步 设置 样式 。 每 个 属性 都 可 以 被 设置 为 
3 个 值 之 一 : True (该 属性 总 是 启用， 不 论 其 他 样式 是 否 应 用 于 该 
Run) 、False (该 属性 总 是 禁用 ) 或 None( 默 认 使 用 该 Run 被 设置 的 任 
何 属 性 ) 。 


表 13-1 列 出 了 可 以 在 Run 对 象 上 设置 的 text 属 性 。 
表 13-1 Run 对 象 的 text 属 性 


属性 描述 





italic 文本 以 斜体 出 现 














文本 以 大 写 首 字母 出 现 ， 小 写字 母 小 两 个 点 


文本 以 轮廓 线 出 现 ， 而 不 是 实心 
em 
文本 以 刻 入 页 面 的 方 式 出 现 
文本 以 凸 出 页 面 的 方式 出 现 


例如 ， 为 了 改变 demo.docx 的 样式 ， 在 交互 式 环 境 中 输入 以 下 代 

















Ad: 





>>> doc = docx.Document('demo.docx' ) 


>>> doc.paragraphs[0@].text 


"Document Title' 
>>> doc.paragraphs[@].style 


'Title' 
>>> doc.paragraphs[6].style = 'Normal' 


>>> doc.paragraphs[1].text 


'A plain paragraph with some bold and some italic' 
>>> (doc.paragraphs[1].runs[0].text, doc.paragraphs[1].runs[1].text, doc. 


paragraphs[1].runs[2].text, doc.paragraphs[1].runs[3].text) 


('A plain paragraph with some ', 'bold', ' and some ', ‘italic') 
>>> doc.paragraphs[1].runs[@].style = 'QuoteChar' 


True 


>>> doc.paragraphs[1].runs[1].underline 


>>> doc.paragraphs[1].runs[3].underline = True 


>>> doc.save('restyled.docx' ) 





这 里 ， 我 们 使 用 了 text 和 和 style 属 性 ， 以 便 容易 地 看 到 文档 的 段落 中 
有 什么 。 我 们 可 以 看 到 ， 很 容易 将 段落 划分 成 Ran， 并 单独 访问 每 个 
Run。 上 所 以 我 们 取得 了 第 二 段 中 的 第 一 、 第 二 和 第 四 个 Run， 设 置 每 个 
Run 的 样式 ， 将 结果 保存 到 一 个 新 文档 。 


文件 顶部 的 单词 Document Title 将 具有 Normal 样 式 ， 而 不 是 Title 样 
式 。 针 对 文本 A plain paragraph 的 Run 对 象 ， 将 具有 QuoteChar 样 式 。 针 
对 单词 bold 和 italic 的 两 个 Run 对 象 ， 它 们 的 underline 属 性 设置 为 True。 图 
13-7 展 示 了 文件 中 段落 和 Run 的 样式 看 起 来 的 样子 。 
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图 13-7 restyled.docx 文 件 


W [4] https://python-docx.readthedocs.org/en/latest/user/styles.html ， 你 
可 以 看 到 ，python-docx 使 用 样式 的 更 完整 文档 。 


13.3.6 写 入 Word 文 档 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> import docx 


>>> doc = docx.Document() 


>>> doc.add_paragraph('Hello world! ') 


< docx.text.Paragraph object at @x@@00000003B56F6Q> 
>>> doc.save('helloworld.docx' ) 





要 创建 自己 的 .docx 文 件 ， 就 调用 docx.Document()， 返 回 一 个 新 
的 、 空 白 的 Word Document 对 象 。Document 对 象 的 add_paragraph(0) 方 法 
将 一 段 新 文 本 添加 到 文档 中 ， 并 返回 添加 的 Paragraph 对 象 的 引用 。 在 添 
加 完 文 本 之 后 ， 癌 Document 对 象 的 save(0) 方 法 传 入 一 个 文件 名 字符 串 ， 
将 Document 对 象 保存 到 文件 。 


这 将 在 当前 工作 目录 中 创建 一 个 文件 ， 名 为 helloworld.docx。 如 果 
打开 它 ， 束 像 图 13-8 的 样子 。 











Cie | „EGIS helloworld.doo licrosoft Word (Product Activation Failed) = | 
IN a Seer äi P s z yo em we EN | 
| File Home Insert Page Layout References Mailings Review View Developer Add-Ins Sua 
—_ , n — ated | 
” - A x ~| Bj i. | | 从 
[3 Cambria (Body) ~ 11 A 大 Aa B e Eej | AaBbCcDd | AaBbCcDd AaBbCc 25, Replace | 
a z sa 
2 ab, | = =- = 
paste P R Z SW -A =| S35 j o- TNormal 1TNo Spacing Heading1 = gr È Select - 
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Hello world! 











图 13-8 利用 add_paragraph('Hello world!") 创 建 的 Word 文 档 


可 以 用 新 的 段落 文本 ， 再 次 调用 add_paragraph() 方 法 ， 添 加 段落 。 
或 者 ， 要 在 已 有 上 段落 的 末尾 添加 文本 ， 可 以 调用 Paragraph 对 象 的 
add_run0 方 法 ， 同 它 传 入 一 个 字符 串 。 在 交互 式 环境 中 输入 以 下 代码 : 








>>> import docx 


>>> doc = docx.Document() 


>>> doc.add paragraph('Hello world!') 


< docx.text.Paragraph object at @x@00000000366AD30> 
>>> paraObj1 = doc.add paragraph('This is a second paragraph.') 


>>> paraObj2 = doc.add paragraph('This is a yet another paragraph.') 


>>> paraObj1.add_run(' This text is being added to the second paragraph." ) 


< docx.text.Run object at 0x0000000003A2C860> 
>>> doc.save('multipleParagraphs.docx' ) 





得 到 的 文本 如 图 13-9 所 示 。 请 注意 ， 文 本 This text is being added to 





the second paragraph. 被 添加 到 paraObj1 中 的 Paragraph 对 象 中 ， 它 是 添加 
到 doc 中 的 第 二 段 。add_paragraphO0 和 add_run0 分 别 返 回 Paragraph 和 Run 
对 象 ， 这 样 你 就 不 必 多 花 一 步 来 提取 它们 。 
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Hello world! 
This is a second paragraph. This text is being added to the second paragraph. 


This is a yet another paragraph. 


paget old Words 224 i 








13-9 添加 了 多 个 Paragraph 和 Run 对 象 的 文档 


要 记 住 ， 对 于 python-docx 的 0.5.3 版 本 ， 新 的 Paragraph 对 象 只 能 添加 
在 文档 的 末尾 ， 新 的 Run 对 象 只 能 添加 在 Paragraph 对 象 的 末尾 。 


可 以 再 次 调用 save(0 方 法 ， 保 存 所 做 的 变更 。 


add_paragraph() 和 add_run() 都 接受 可 选 的 第 二 个 参数 ， 它 是 表示 
Paragraph 或 Run 对 象 样式 的 字符 串 。 例 如 : 


>>> doc.add paragraph('Hello world!', 'Title') 





这 一 行 添加 了 一 上段 ， 文 本 是 Hello world!， 样 式 是 Title。 


13.3.7 添加 标题 


调用 add_headingO 将 添加 一 个 段落 ， 并 使 用 一 种 标题 样式 。 在 交互 
式 环境 中 输入 以 下 代码 : 





>>> doc = docx.Document() 


>>> doc.add_heading('Header 6' @) 


< docx.text.Paragraph object at @x@@000000036CB3C8> 
>>> doc.add_heading('Header 1', 1) 


< docx.text.Paragraph object at 0x00000000036CB630> 
>>> doc.add_heading('Header 2', 2) 


< docx.text.Paragraph object at @x@@000000036CB828> 
>>> doc.add_heading('Header 3', 3) 


< docx.text.Paragraph object at @x@@000000036CB2E8> 
>>> doc.add_heading('Header 4', 4) 


< docx.text.Paragraph object at @x@@000000036CB3C8> 
>>> doc.save('headings.docx' ) 


add_heading() 的 参数 ， 是 一 个 标题 文本 的 字符 串 ， 以 及 一 个 从 0 到 4 
的 整数 。 整 数 0 表 示 标 题 是 Title 样 式 ， 这 用 于 文档 的 顶部 。 整 数 1 到 4 是 
不 同 的 标题 层次 ，1 是 主要 的 标题 ，4 是 最 低层 的 子 标题 。add_heading() 
返回 一 个 Paragraph 对 象 ， 让 你 不 必 多 花 一 步 从 Document 对 象 中 提取 











得 到 的 headings.docx 文 件 如 图 13-10 所 示 。 


Header0 


Header 1 
Header 2 
Header 3 


Header 4 





图 13-10 带 有 标题 0 到 4 的 headings.docx 文 档 
13.3.8 添加 换行 符 和 换 页 符 

要 添加 换行 符 〈 而 不 是 开始 一 个 新 的 段落 ) ， 可 以 在 Run 对 象 上 调 
用 add_break(0) 方 法 ， 换 行 符 将 出 现在 它 后 面 。 如 果 和 希望 添加 换 页 符 ， 可 


以 将 docx.text.WD_BREAK.PAGE 作 为 唯一 的 参数 ， 传 递 给 add_break()， 
就 像 下 面 代 码 中 间 所 做 的 一 样 : 


>>> doc = docx.Document() 














>>> doc.add_paragraph('This is on the first page!') 


< docx.text.Paragraph object at @x@000000003785518> 
@ >>> doc.paragraphs[@].runs[@].add_break(docx.text.WD_BREAK .PAGE ) 


>>> doc.add_paragraph('This is on the second page!') 


< docx.text.Paragraph object at @x@0000000037855F8> 
>>> doc.save('twoPage.docx' ) 





这 创建 了 一 个 两 页 的 Word 文 档 ， 第 一 页 上 是 This is on the first 
page!， 第 二 页 上 是 This is on the second page!。 虽 然 在 文本 This is on the 
first page! 之 后 ， 第 一 页 还 有 大 量 的 空间 ， 但 是 我 们 在 第 一 段 的 第 一 个 
Run 之 后 插入 分 页 符 ， 强 制 下 一 段落 出 现在 新 的 页 面 中 @。 


13.3.9 添加 图 像 


Document 对 象 有 一 个 add_picture(0) 方 法 ， 让 你 在 文档 末尾 添加 图 
像 。 假 定 当前 工作 目录 中 有 一 个 文件 zophie.png， 你 可 以 输入 以 下 代 
人 码 ， 在 文档 末尾 添加 zophie.png， 宽 度 为 1 器 寸 ， 高 度 为 4 厘米 (“Word 可 














以 同时 使 用 英制 和 公制 单位 ) : 


>>> doc.add picture('zophie.png', width=docx.shared.Inches(1), 


height=docx.shared.Cm(4)) 


< docx.shape.InlineShape object at ©0x00000000036C7D30> 





第 一 个 参数 是 一 个 字符 串 ， 表 示 图 像 的 文件 名 。 可 选 的 width 和 
height 关 键 字 参数 ， 将 设置 该 图 像 在 文档 中 的 宽度 和 高 度 。 如 果 和 省略， 
宽度 和 高 度 将 采用 默认 值 ， 即 该 图 像 的 正常 尺寸 。 


你 可 能 愿意 用 熟悉 的 单位 来 指定 图 像 的 高 度 和 宽度 ， 诸 如 英寸 或 厘 
米 。 所 以 在 指定 width 和 height 关键 字 参 数 时 ， 可 以 使 用 
docx.shared.Inches() 和 docx.shared.Cm() 函 数 。 





13.4 小 结 


文本 信息 不 仅仅 是 纯 文本 文件 ， 实 际 上 ， 很 有 可 能 更 经 常 遇 到 的 是 
PDF 和 Word 文 档 。 可 以 利用 PyPDF2 模 块 来 读 写 PDF 文 档 。 遗 憾 的 是 ， 
从 PDF 文 档 读 取 文 本 并 非 总 是 能 得 到 完美 转换 的 字符 串 ， 因 为 PDF 文 档 
的 格式 很 复杂 ， 某 些 PDF 可 能 根本 读 不 出 来 。 在 这 种 情况 下 ， 你 就 不 太 
走运 了 ， 除 非 将 来 pyPDF2 更 新 ， 支 持 更 多 的 PDF 功能 。 


Word 文 档 更 可 靠 ， 可 以 用 python-docx 模 块 来 读 取 。 可 以 通过 
Paragraph 和 Run 对 和 象 来 操作 Word 文 档 中 的 文本 。 可 以 设置 这 些 对 象 的 样 
式 ， 尽 管 必 须 使 用 默认 的 样式 ， 或 文档 中 已 有 的 样式 。 可 以 添加 新 的 段 
洲 、 标 题 、 换 行 换 页 符 和 图 像 ， 尽 管 只 能 在 文档 的 末尾 。 





























在 处 理 PDF 和 Word 文 档 时 有 很 多 限制 ， 这 是 因为 这 些 格式 的 本 意 是 
很 好 地 展示 给 人 和 人 看， 而 不 是 让 软件 易于 解析 。 下 一 章 将 探讨 存储 信息 的 
另外 两 种 常见 格式 : JSON 和 CSV 文 件 。 这 些 格 式 是 设计 给 计算 机 使 用 
的 。 你 会 看 到 ，Python 处 理 这 些 格式 要 容易 得 多 。 





13.5 习题 


1. 不 能 将 PDF 文件 名 的 字符 串 传 递 给 PyYPDF2.PdfFileReaderO 函 
数 。 应 该 向 该 函数 传递 什么 ? 


2. PdfFileReader() 和 PdfFileWriter() 需 要 的 File 对 象 ， 应 该 以 何 种 模 
式 打开 ? 


3. 如 何 从 PdfFileReader 对 象 中 取得 第 5 页 的 Page 对 象 ? 
4. 什么 PdfFileReader 变 量 保 存 了 PDF 文档 的 页 数 ? 


5. 如 果 PdfFileReader 对 象 表示 的 PDF 文档 是 用 口令 swordfish 加 密 
的 ， 应 该 先 做 什么 ， 才 能 从 中 取得 Page 对 象 ? 


6. 使 用 什么 方法 来 旋转 页 面 ? 

7. 什么 方法 返回 文件 demo.docx 的 Document 对 象 ? 

8. Paragraph 对 象 和 Run 对 象 之 间 的 区 别 是 什么 ? 

x doc 变 量 保存 了 一 个 Document 对 象 ， 如 何 从 中 得 到 Paragraph 对 象 





10. 哪 种 类 型 的 对 象 具有 bold、underline、italic、strike 和 outline 变 


11. bold 变 量 设置 为 True、False 或 None， 有 什么 区 别 ? 
12. 如 何 为 一 个 新 Word 文 档 创 建 Document 对 象 ? 


13. doc 变 量 保 存 了 一 个 Document 对 象 ， 如 何 添 加 一 个 文本 是 'Hello 
there 的 段落 ? 


14. 哪些 整数 表示 Word 文 档 中 可 用 的 标题 级 别 ? 


13.6 实践 项 目 
作为 实践 ， 编 程 完 成 下 列 任务 。 
13.6.1 PDF 偏执 狂 
利用 第 9 章 的 os.walk() 函 数 编写 一 个 脚本 ， 遍 历 文件 夹 中 的 所 有 
PDF (包含 子 文件 夹 )， 用 命令 行 提供 的 口令 对 这 些 PDF 加 密 。 用 原来 
的 文件 名 加 上 _encrypted.pdf 后 级 ， 保 存 每 个 加 密 的 PDF。 在 删除 原来 的 
文件 之 前 ， 尝 试用 一 个 程序 读 取 并 解密 该 文件 ， 确 保 它 被 正确 的 加 密 。 
然后 编写 一 个 程序 ， 找 到 文件 夹 中 所 有 加 密 的 PDF 文 件 (包括 它 的 
子 文件 夹 ) ， 利 用 提供 的 口令 ,创建 PDF 的 解密 找 贝 。 如 果 口 令 不 对 ， 
程序 应 该 打印 一 条 消息 ， 并 继续 处 理 下 一 个 PDF 文 件 。 
13.6.2 定制 邀请 函 ， 保 存 为 Word 文 档 


假设 你 有 一 个 客人 名 单 的 文本 文件 。 这 个 guests.txt 文 件 每 行 有 一 个 
名 字 ， 像 下 面 这 样 : 








Prof. Plum 
Miss Scarlet 
Col. Mustard 
Al Sweigart 
RoboCop 





写 一 个 程序 ， 生 成 定制 邀请 函 的 Word 文 要 ， 如 图 13-11 所 示 。 
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图 13-11 定制 的 邀请 函 脚本 生成 的 Word 文 档 





因为 python-docx 只 能 使 用 Word 文 档 中 已 经 存在 的 样式 ， 所 以 你 必 
须 先 将 这 些 样式 添加 到 一 个 空白 Word 文 件 中 ， 然 后 用 python-docx 打 开 
该 文件 。 在 生成 的 Word 文 档 中 ， 每 份 邀请 函 应 该 占据 一 页 ， 所 以 在 每 
份 邀 请 函 的 最 后 一 段 调 用 add_break0， 添 加 分 页 符 。 这 样 ， 你 只 需要 打 
开 一 份 Word 文 档 ， 束 能 打印 所 有 的 邀请 函 。 


你 可 以 从 http:/nostarch.comyautomatestuff/ 下 载 示 例 guests.txt 文 件 。 


13.6.3 暴力 PDF 口令 破解 程序 


假定 有 一 个 加 密 的 PDF 文 件 ， 你 筷 记 了 口令 ,但 记得 它 是 一 个 英语 
单词 。 近 试 猜测 遗 瑟 的 口令 是 很 无 聊 的 任务 。 作 为 蔡 代 ， 你 可 以 写 一 个 
程序 ， 和 尝试 用 所 有 可 能 的 喘 语 单词 来 解密 这 个 PDF 文 件 ， 直 到 找到 有 效 
的 口令 。 这 称 为 暴力 口令 攻击 。 从 http://nostarch.com/automatestuff/ 下 载 
文本 文件 dictionary.txt。 这 个 字典 文件 包含 44000 多 个 英语 单词 ， 每 个 单 
HA e 


利用 第 8 草 学 过 的 文件 读 取 技巧 来 读 取 这 个 文件 ， 创 建 一 个 单词 字 

















符 串 的 列表 。 然 后 循环 吉 历 这 个 列表 中 的 每 个 单词 ， 将 它 传 北 给 
decrypt() 方 法 ， 如 果 这 个 方法 返回 整数 0， 口令 就 是 错 的 ， 程 友 应 该 继 
续 尝 试 下 一 个 口令 。 如 果 decrypt0) 返 回 1， 程 序 就 应 该 终止 循环 ， 打 印 出 
人 破解 的 口令 。 你 应 该 尝试 每 个 单词 的 大 小 写 形式 (在 我 的 笔记 本 上 ， 通 
历来 自 字 典 文件 的 所 有 88000 个 大 小 写 单词 ， 只 要 儿 分 钟 时 间 。 这 就 是 
不 应 该 使 用 简单 英语 单词 作为 口令 的 原因 ) 。 





第 14 章 ”处 理 CSV 文 件 和 JSON 数 
据 


在 第 13 章 中 ， 你 学 习 了 如 何 从 PDF 和 Word 文 档 中 提取 文本 。 这 些 文 
件 是 二 进 制 格式 ， 需 要 特殊 的 Python 模块 来 访问 它们 的 数据 。CSV 和 
JSON 文 件 则 不 同 ， 它 们 是 纯 文 本 文件 。 可 以 用 文本 编辑 器 察看 它们 ， 
诸如 IDLE 的 文件 编辑 器 。 但 Python 也 有 专门 的 csv 和 json 模 块 ， 每 个 模块 
都 提供 了 一 些 函 数 ， 帮 助 你 处 理 这 些 文件 格式 。 


CSV 表 示 “Comma-Separated Values 〈 喜 号 分 隔 的 值 ) >”，CSV 文 件 
保存 为 纯 文 本 文件 。Python 的 csv 模 块 让 解析 CSV 文 
变 得 容易 。 


JSON (发 音 为 JAY-sawn” 或 “Jason”， 但 如 何 发 音 并 不 重要 。 因 为 
无 论 如 何 发 音 ， 都 会 有 人 说 你 发 音 错误 ) 是 一 种 格式 ， 它 以 JavaScript 源 
代码 的 形式 ， 将 信息 保存 在 纯 文 本 文件 中 。 

JSON 是 JavaScript Object Notation 的 缩写 不 需要 知道 JavaScript 编 程 


语言 ， 就 可 以 使 用 JSON 文 件 ， 但 了 解 JSON 格 式 是 有 用 的 ， 因 为 它 用 于 
许多 Web 应 用 程序 中 。 




















14.1 csv 模 块 


CSV 文 件 中 的 每 行 代表 电子 表格 中 的 一 行 ， 有 逗号 分 制 了 该 行 中 的 单 
元 格 。 例 如 ， 来 自 http://nostarch.com/automatestuff/ 的 电子 表格 
example.xlsx， 在 一 个 CSV 文 件 中 ， 看 起 来 像 这 样 : 








4/5/2015 13:34,Apples, 73 
4/5/2015 3:41,Cherries, 85 
4/6/2015 12:46,Pears,14 
4/8/2015 8:59,Oranges,52 
4/10/2015 2:07,Apples,152 
4/10/2015 18:10, Bananas, 23 
4/10/2015 2:40,Strawberries, 98 


| 


我 将 使 用 这 个 文件 作为 本 章 的 交互 式 环境 的 例子 。 可 以 从 
http://nostarch.com/ automatestuff/ 下 载 example.csv， 或 在 文本 编辑 器 中 输 
入 文本 ， 并 保存 为 example.csv。 


缺少 Excel 电 子 表格 的 许多 功能 。 例 如 ，CSV 文 


值 没 有 类 型 ， 所 有 东西 都 是 字符 串 ; 
没有 字体 大 小 或 颜色 的 设置 ; 

BA eS LIER; 

不 能 指定 单元 格 的 宽度 和 高 度 ; 
不 能 合并 单元 格 ; 

不 能 舱 入 图 像 或 图 表 。 


CSV 的 文件 的 优势 是 简单 。CSV 文 件 被 许多 种 类 的 程序 广泛 地 支 
持 ， 可 以 在 文本 编辑 器 中 查看 0 它 是 表示 
电子 表格 数据 的 直接 方式 。CSV 格 式 和 它 声 称 的 完全 一 致 ， 它 就 是 一 个 
文本 文件 ， 具 有 逗号 分 隔 的 值 。 


因为 CSV 文 件 就 是 文本 文件 ， 所 以 你 可 能 会 尝试 将 它们 读 入 一 个 字 
符 串 ， 然 后 用 第 8 章 中 学 到 的 技术 人 处理 这 个 字符 串 。 例 如 ， 因 为 CSV 文 
件 中 的 每 个 单元 格 有 逗号 分 制 ， 也 许 你 可 以 只 是 对 每 行文 本 调用 splitO) 
方法 ， 来 取得 这 些 值 。 但 并 非 CSV 文 件 中 的 每 个 逗号 ， 都 表示 两 个 单元 
格 之 间 的 分 界 。CSV 文 件 也 有 自己 的 转 义 字符 ， 人 允许 逗号 和 其 他 字符 作 
为 值 的 一 部 分 。split0 方 法 不 能 处 理 这 些 转 义 字符 。 因 为 这 些 潜在 的 缺 
陷 ， 所 以 总 ER 该 使 用 csv 模 块 来 读 写 CSV 文 件 。 


























14.1.1 Reader 对 象 
要 用 csv 模 块 从 CSV 文 件 中 读 取 数据 ， 需 要 创建 一 个 Reader 对 象 。 


Reader 对 象 让 你 和 迭 代 壳 历 CSV 文 件 中 的 每 一 行 。 在 交互 式 环境 中 输入 以 
下 代码 ， 同 时 将 example.csv 放 在 当前 工作 目录 中 : 


@ >>> import csv 





@ >>> exampleFile = open('example.csv' ) 


© >>> exampleReader = csv.reader(exampleFile) 


@ >>> exampleData = list(exampleReader ) 


© >>> exampleData 


[['4/5/2015 13:34', 'Apples', '73'], ['4/5/2015 3:41', ‘Cherries’, '85'], 
['4/6/2015 12:46', 'Pears', '14'], ['4/8/2015 8:59', ‘Oranges’, '52'], 
['4/10/2015 2:07', ‘Apples', '152'], ['4/10/2015 18:10', ‘Bananas’, '23'] 
['4/10/2015 2:40', ‘Strawberries’, '98']] 





csv 模 块 是 Python 自 带 的 ， 所 以 不 需要 安装 就 可 以 导入 它 @@， 


要 用 csv 模 块 读 取 CSV 文 件 ， 首 先 用 open0) 函 数 打 开 它 信 ， 就 像 打 开 
任何 其 他 文本 文件 一 样 。 但 是 ， 不 用 在 open0 返 回 的 File 对 象 上 调用 
read() 或 readlines0) 方 法 ， 而 是 将 它 传 递 给 csv.reader() 函 数 @。 这 将 返回 
一 个 Reader 对 象 ， 供 你 使 用 。 请 注意 ， 不 能 直接 将 文件 名 字符 串 传递 给 
cSsV.reader() 函 数 。 





要 访问 Reader 对 象 中 的 值 ， 最 直接 的 方法 ， 就 是 将 它 转换 成 一 个 普 
通 Python 列 表 ， 即 将 它 传递 给 list0)@ 四 .在 这 个 Reader 对 象 上 应 用 listO) 函 
数 ， 将 返回 一 个 列表 的 列表 。 可 以 将 它 保 存在 变量 exampleData 中 。 在 
交互 式 坏 境 中 输入 exampleData， 将 显示 列表 的 列表 人 @。 


既然 已 经 将 CSV 文 件 表示 为 列表 的 列表 ， 就 可 以 用 表达 式 
exampleData [row][col] 来 访问 特定 行 和 列 的 值 。 其 中 ，row 是 
exampleData 中 一 个 列表 的 下 标 ，col 是 该 列表 中 你 想 访问 的 项 的 下 标 。 
在 交互 式 环境 中 输入 以 下 代码 : 








>>> exampleData[6][6] 


"4/5/2015 13:34' 
>>> exampleData[@][1] 


"Apples' 
>>> exampleData[6][2] 


'73' 
>>> exampleData[1][1] 


"Cherries' 
>>> exampleData[6][1] 


"Strawberries' 





exampleData[0][0] 进 入 第 一 个 列表 ， 并 给 出 第 一 个 字符 串 。 
exampleData[0][2] 进 入 第 一 个 列表 ， 并 给 出 第 三 个 字符 串 ， 以 此 类 推 。 


14.1.2 在 for 循 环 中 ， 从 Reader 对 象 读 取 数据 
对 于 大 型 的 CSV 文 件 ， 你 需要 在 一 个 for 循 环 中 使 用 Reader 对 象 。 这 


样 避免 将 整个 文件 一 次 性 装 入 内 存 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代 
人 码 : 





>>> import csv 


>>> exampleFile = open('example.csv') 


>>> exampleReader = csv.reader(exampleFile) 


>>> for row in exampleReader: 


print('Row #' + str(exampleReader.line_num) + ' ' + str(row)) 


Row #1 ['4/5/2015 13:34', ‘Apples', '73'] 

Row #2 ['4/5/2015 3:41', ‘Cherries’, '85'] 

Row #3 ['4/6/2015 12:46', 'Pears', '14'] 

Row #4 ['4/8/2015 8:59', ‘Oranges', '52'] 

Row #5 ['4/10/2015 2:07', ‘Apples', '152'] 

Row #6 ['4/10/2015 18:10', ‘Bananas’, '23'] 

Row #7 ['4/10/2015 2:40', ‘Strawberries’, '98' | 
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Reader 对 象 中 的 行 。 行 是 一 个 值 的 列表 ， 每 个 值 表示 一 个 单元 格 。 


print0) 函 数 将 打印 出 当前 行 的 编写 以 及 该 行 的 内 容 。 要 取得 行 号 ， 
就 使 用 Reader 对 象 的 line_num 变 量 ， 它 包含 了 当前 行 的 编号 。 


Reader 对 象 只 能 循环 遍历 一 次 。 要 再 次 读 取 CSV 文 件 ， 必 须 调 用 
csv.reader， 创 建 一 个 对 象 。 


14.1.3 Writer 对 象 


Writer 对 象 让 你 将 数据 写 入 CSV 文件 。 要 创建 一 个 Writer 对 象 ， 
就 使 用 csv.writer() 函 数 。 在 交互 式 环境 中 输入 以 下 代码 。 





>>> import csv 


@ >>> outputFile = open('output.csv', 'w', newline='') 


@ >>> outputWriter = csv.writer(outputFile) 


>>> outputWriter.writerow(['spam', 'eggs', ‘bacon', 'ham']) 


21 
>>> outputWriter.writerow(['Hello, world!', ‘eggs’, ‘bacon’, ‘ham']) 


32 
>>> outputWriter.writerow([1, 2, 3.141592, 4]) 


16 
>>> outputFile.close() 





6, Vil openQst Aw, LAS RITA POCO. RK ONE 
对 象 。 然 后 将 它 传递 给 csv.writer(0) 人 @， 创 建 一 个 Writer 对 象 。 


在 Windows 上 ， 需 要 为 open() 函 数 的 newline 关 键 字 参数 传 入 一 个 空 
字符 串 。 这 样 做 的 技术 原因 超出 了 本 书 的 范围 。 如 果 环 记 设 置 newline 关 
键 字 参数 ，output.csv 中 的 行距 将 有 两 倍 ， 如 图 14-1 所 示 。 
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图 14-1 WRR fEopen() F tid Snewline="KHELFER, CSV LEKA TEE 
Writer 对 象 的 writerow() 方 法 接受 一 个 列表 参数 。 列 表 中 的 每 个 词 ， 
放 在 输出 的 CSV 文 件 中 的 一 个 单元 格 中 。writerowO 函 数 的 返回 值 ， 是 
写 入 文件 中 这 一 行 的 字符 数 〈 包 括 换行 字符 ) 。 
这 段 代 码 生成 的 文件 像 下 面 这 样 : 





spam, eggs, bacon, ham 
"Hello, world!",eggs,bacon,ham 
1,2,3.141592,4 





请 注意 ，Writer 对 象 自动 转 义 了 'Hello, world!' 中 的 逗号 ， 在 CSV 文 
件 中 使 用 了 双 引 号 。 模 块 csv 让 你 不 必 自 己 处 理 这 些 特殊 情况 。 


14.1.4 delimiter 利 lineterminator 关 键 字 参数 


假定 你 希望 用 制 表 符 代 蔡 运 号 来 分 隔 单元 格 ， 并 希望 有 两 倍 行 距 。 
可 以 在 交互 式 环境 中 输入 下 面 这 样 的 代码 : 


>>> import csv 


>>> 


>>> 


24 
>>> 


17 
>>> 


32 
>>> 


csvFile = open('example.tsv', 'w', newline='') 


csvWriter = csv.writer(csvFile, delimiter='\t', lineterminator='\n\n' 


csvWriter.writerow(['apples', ‘oranges’, 'grapes']) 


csvWriter.writerow(['eggs', ‘bacon’, 'ham']) 


csvWriter.writerow(['spam', 'spam', 'spam', 'spam', 'spam', 'spam']) 


csvFile.close() 


[L CR 


这 改变 了 文件 中 的 分 隔 符 和 行 终止 字符 。 分 隔 符 是 一 行 中 单元 格 之 
间 出 现 的 字符 。 默 认 情 况 下 ，CSV 文 件 的 分 隔 符 是 逗号 。 行 终止 字符 是 
出 现在 行 末 的 字符 。 默 认 情 况 下 ， 行 终止 字符 是 换行 符 。 你 可 以 利用 
csv.writer() 的 delimiter 和 lineterminator 关 键 字 参数 ， 将 这 些 字 符 改 成 不 同 
的 值 。 

传 入 delimeter=\t' 和 lineterminator=\nn'@Q， 这 将 单元 格 之 间 的 字符 
改变 为 制 表 符 ， 将 行 之 间 的 字符 改变 为 两 个 换行 符 。 然 后 我 们 调用 
writerow) 三次， 得 到 3 行 。 


这 产生 了 文件 example.tsv， 包 含 以 下 内 容 : 








apples oranges grapes 


eggs bacon ham 


spam spam spam spam spam 





既然 单元 格 是 由 制 表 符 分 隅 的 ， 我 们 就 使 用 文件 扩展 名 .tsv， 表 示 
制 表 符 分 隔 的 值 。 


14.2 项 目 ， 从 CSV 文 件 中 删除 表 头 


假设 你 有 一 个 枯燥 的 任务 ， 要 删除 几 百 CSV 文 件 的 第 一 行 。 也 许 你 
会 将 它们 送 入 一 个 自动 化 的 过 程 ， 只 需要 数据 ， 不 需要 每 列 顶部 的 表 
头 。 可 以 在 Excel 中 打开 每 个 文件 ， 删 除 第 一 行 ， 并 重新 保存 该 文件 ， 
但 这 需要 几 个 小 时 。 让 我 们 写 一 个 程序 来 做 这 件 事 。 


该 程序 需要 打开 当前 工作 目录 中 所 有 扩展 名 为 .csv 的 文件 ， 读 取 
CSV 文 件 的 内 容 ， 并 除 挥 第 一 行 的 内 容重 新 写 入 同名 的 文件 。 这 将 用 新 
的 、 无 表 头 的 内 容 丛 换 CSV 文 件 的 旧 内 容 。 














IŠ 
F 








与 往常 一 样 ， 当 你 写 程序 修改 文件 时 ， 一 定 要 先 备 份 这 些 文件 ， 以 防 万 一 你 的 程序 没有 按期 
望 的 方式 工作 。 你 不 希望 意外 地 删除 原始 文件 。 


总 的 来 次， 该 程序 必须 做 到 以 下 几 点 : 


。 找 出 当前 工作 目录 中 的 所 有 CSV 文 件 。 
e 读 取 每 个 文件 的 全 部 内 容 。 
。 跳 过 第 一 行 ， 将 内 容 写 入 一 个 新 的 CSV 文 件 。 


在 代码 层面 上 ， 这 意味 着 该 程序 需要 做 到 以 下 几 操 : 


。 循环 授 历 从 os.listdir() 得 到 的 文件 列表 ， 跳 过 非 CSV 文 件 。 

。 创建 一 个 CSV Reader 对 象 ， 读 取 该 文件 的 内 容 ， 利 用 line_num 属 性 
确定 要 跳 过 哪 一 行 。 

。 创建 一 个 CSV Writer 对 象 ， 将 读 入 的 数据 写 入 新 文件 。 


针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 


removeCsvHeader.py。 

















第 1 步 : 循环 遍历 每 个 CSV 文 件 


程序 需要 做 的 第 一 件 事情 ， 残 是 循环 过 历 当前 工作 目录 中 所 有 CSV 
文件 名 的 列表 。 让 removeCsvHeader.py 看 起 来 像 这 样 : 





#! python3 
# removeCsvHeader.py - Removes the header from all CSV files in the curre 
# working directory. 


import csv, os 
os.makedirs('headerRemoved', exist_ok=True) 
# Loop through every file in the current working directory. 
for csvFilename in os.listdir('.'): 
if not csvFilename.endswith('.csv'): 
e continue # skip non-csv files 
print('Removing header from ' + csvFilename + '...') 


# TODO: Read the CSV file in (skipping first row). 


# TODO: Write out the CSV file. 


ee 


os.makedirs() ii] H 4 8 #theaderRemoved 444K, ATA WM AC#AY 
CSV 文 件 将 写 入 该 文件 严 。 针 对 os.listdir('.) 进 行 for 循 环 完成 了 一 部 分 任 
务 ， 但 这 会 遇 历 工作 目录 中 的 所 有 文件 ， 所 以 需要 在 循环 开始 处 添加 一 
些 代 码 ， 跳 过 扩展 名 不 是 .csv 的 文件 。 如 果 遇 到 非 CSV 文 件 ，continue 语 
句 四 让 循环 转向 下 一 个 文件 名 。 


为 了 让 程序 运行 时 有 一 些 输出 ， 打 印 出 一 条 消息 说 明 程序 在 处 理 哪 
个 CSV 文 件 。 然 后 ， 添 加 一 些 TODO 注 释 ， 说 明 程 序 的 其 余部 分 应 该 做 
什么。 


第 2 步 : 读 入 CSV 文 件 

该 程序 不 会 从 原来 的 CSV 文 件 删除 第 一 行 。 但 是 ， 它 会 创建 新 的 
CSV 文 件 副 本 ， 不 包含 第 一 行 。 因 为 副本 的 文件 名 与 原来 的 文件 名 一 
样 ， 所 以 副本 会 履 盖 原来 的 文件 。 


该 程序 需要 一 种 方法 ， 来 知道 它 的 循环 当前 是 人 否 在 处 理 第 一 行 。 为 
removeCsvHeader.py 添 加 以 下 代码 。 











#! python3 
# removeCsvHeader.py - Removes the header from all CSV files in the current 
# working directory. 


--snip 


# Read the CSV file in (skipping first row). 


csvRows = [] 


csvFileObj = open(csvFilename) 


readerObj = csv.reader(csvFileObj) 


for row in readerObj: 


if readerObj.line_num == 


continue # skip first row 
csvRows. append(row) 
csvFileObj.close() 


# TODO: Write out the CSV file. 


Reader 对 和 象 的 line_num 属 性 可 以 用 来 确定 当前 读 入 的 是 CSV 文 件 的 
哪 一 行 。 另 一 个 for 循 环 会 遍历 CSV Reader 对 象 返 回 所 有 行 ， 除 了 第 一 
行 ， 所 有 行 都 会 添加 到 csvRows。 


在 for 循 环 遍历 每 一 行 时 ， 代 码 检 查 reader.line_ nm BAL. wR 
是 这 样 ， 它 执行 continue， 转 问 下 一 行 ， 不 将 它 添加 到 csvRows 中 。 对 于 
之 后 的 每 一 行 ， 条 件 永 远 是 False， 该 行将 添加 到 csvRows 中 。 


第 3 步 : 写 入 CSV 文 件 ， 没 有 第 一 行 
现在 csvRows 包 含 了 除 第 一 行 的 所 有 行 ， 该 列表 需要 写 入 
headerRemoved 文 件 夹 中 的 一 个 CSV 文 件 。 将 以 下 代码 添加 到 


removeCsvHeader.py: 





#! python3 

# removeCsvHeader.py - Removes the header from all CSV files in the curre 
# working directory. 

--snip 


# Loop through every file in the current working directory. 
@ for csvFilename in os.listdir('.'): 
if not csvFilename.endswith('.csv'): 
continue # skip non-CSV files 


--snip 


# Write out the CSV file. 


csvFileObj = open(os.path.join('headerRemoved', csvFilename), 'w', 


newline='') 


csvWriter = csv.writer(csvFileObj) 


for row in csvRows: 


csvWriter .writerow(row) 


csvFileObj.close() 





CSV Writer 对 象 利用 csvFilename 〈 这 也 是 我 们 在 CSV Reader 中 使 用 
的 文件 名 ) ， 将 列表 写 入 headerRemoved 中 的 一 个 CSV 文 件 。 这 将 履 羡 


原来 的 文件 。 


创建 Writer 对 象 后 ， 我 们 循环 过 有 历 存储 在 csvRows 中 的 子 列表 ， 将 
每 个 子 列表 写 入 该 文件 。 


这 段 代码 执行 后 ， 外 层 for 循 环 @ 将 循环 到 os.listdir(.") 中 的 下 一 个 文 
件 名 。 循 环 结束 时 ， 程 序 就 结束 了 。 


为 了 测试 你 的 程序 ， 从 http://nostarch.com/automatestuff/ 下 载 
removeCsvHeader.zip， 将 它 解 压缩 到 一 个 文件 夹 。 在 该 文件 夹 中 运行 
removeCsvHeader.py 程 序 。 输 出 将 是 这 样 的 : 





Removing header from NAICS data_1048.csv... 
Removing header from NAICS data_1218.csv... 
--snip 


Removing header from NAICS data_9834.csv... 
Removing header from NAICS data_9986.csv... 





这 个 程序 应 该 在 每 次 从 CSV 文 件 中 删除 第 一 行 时 ， 打 印 一 个 文件 


第 4 步 : 类 似 程序 的 想法 


针对 CSV 文 件 写 的 程序 类 似 于 针对 Excel 文 件 写 的 程序 ， 因 为 它们 
都 是 电子 表格 文件 。 你 可 以 编程 完成 以 下 任务 : 


© 在 一 个 CSV 文 件 的 不 同行 ， 或 多 个 CSV 文 件 之 间 比 较 数 据 。 

© 从 CSV 文 件 拷贝 特定 的 数据 到 Excel 文 件 ， 或 反 过 来 。 

。 检查 CSV 文 件 中 无 效 的 数据 或 格式 错误 ， 并 癌 用 户 提 醒 这 些 错误 。 
。 从 CSV 文 件 读 取 数 据 ， 作 为 Python 程序 的 输入 。 








14.3 JSON 和 API 


JavaScript 对 象 表示 法 是 一 种 流行 的 方式 ， 将 数据 格式 化 ， 成 为 人 可 
读 的 字符 串 。JSON 是 JavaScript 程 序 编写 数据 结构 的 原生 方式 ， 通 向 类 
似 于 Python 的 pprintO 函 数 产 生 的 结果 。 不 需要 了 解 JavaScript， 也 能 处 理 
JSON 格 式 的 数据 。 


下 面 是 JSON 格 式 数据 的 一 个 例子 : 








{"name": "Zophie", "isCat": true, 


"miceCaught": ©, "napsTaken": 37.5, 
"felineIQ": null} 





了 解 JSON 是 很 有 用 ， 因 为 很 多 网 站 都 提供 JSON 格 式 的 内 容 ， 作 为 
程序 与 网 站 交互 的 方式 。 这 就 是 所 谓 的 提供 “应 用 程序 编程 接口 
(API) ”。 访 问 API 和 通过 URL 访 问 任何 其 他 网 页 是 一 样 的 。 不 同 的 
Se ere (例如 用 JSON ) ，API 不 是 人 
容易 阅读 的 。 


许多 网 站 用 JSON 格 式 提供 数据 。Facebook、Twitter、Yahoo、 
Google, Tumblr. Wikipedia, Flickr, Data.gov. Reddit. IMDb. Rotten 
Tomatoes、LinkedIn 和 许多 其 他 流行 的 网 站 ， 都 提供 API 让 程序 使 用 。 
有 些 网 站 需要 注册 ， 这 几乎 都 是 人 免费 的 。 你 必须 找到 文档 ， 了 解 程序 需 
要 请 求 什么 URL 才能 获得 想 要 的 数据 ， 以 及 返回 的 JSON 数 据 结 构 的 一 
般 格式 。 这 些 文档 应 在 提供 API 的 网 站 上 提供 ， 如 果 它 们 有 “开发 者 ”页 
面 ， 就 去 那里 找 找 。 


利用 API， 可 以 编程 完成 下 列 任务 : 


从 网 站 抓 取 原 始 数 据 ( 访 问 API 通 常 比 下 载 网 页 并 用 Beautiful Soup 
解析 HTML 更 方便 ) 。 

上 自动 从 一 个 社交 网 络 账户 下 载 新 的 帖子 ， 并 发 布 到 另 一 个 账户 。 例 
如 ， 可 以 把 mblr 的 帖子 上 传 到 Facebook。 

从 IMDb、Rotten Tomatoes 和 维基 百科 提取 数据 ， 放 到 计算 机 的 一 
个 文本 文件 中 ， 为 你 个 人 的 电影 收藏 创建 一 个 “电影 百科 全 书 ”。 








可 以 在 http://nostarch.com/automatestuff/ 的 资源 中 看 到 JSON API 的 一 


14.4 json 模 块 


Python 的 json 模 块 处 理 了 JSON 数 据 字符 串 和 Python 值 之 间 转 换 的 所 
有 细节 ， 得 到 了 json.loads0 和 json.dumpsO 函 数 。JSON 不 能 存储 每 一 种 
Python 值 ， 它 只 能 包含 以 下 数据 类 型 的 值 : 字符 串 、 整 型 、 浮 点 型 、 布 
尔 型 、 列 表 、 字 典 和 NoneType。JSON 不 能 表示 Python 特有 的 对 象 ， 如 
File 对 象 、CSV Reader 或 Writer 对 象 、Regex 对 象 或 Selenium WebElement 
对 象 。 


14.4.1 用 loads0 函 数 读 取 JSON 
要 将 包含 JSON 数 据 的 字符 串 转 换 为 Python 的 值 ， 就 将 它 传递 给 


json.loadsO) 函 数 〈 这 个 名 字 的 意思 是 “load string”， 而 不 是 "loads”) 。 在 
交互 式 环境 中 输入 以 下 代码 ; 





>>> stringOfJsonData = '{"name": "Zophie", "isCat": true, "miceCaught": 6， 


"felineIQ": null}' 


>>> import json 


>>> jsonDataAsPythonValue = json.loads(stringOfJsonData) 


>>> jsonDataAsPythonValue 


{'isCat': True, 'miceCaught': ©, 'name': 'Zophie', ‘'felineIQ': None} 





导入 json 模 块 后 ， 就 可 以 调用 loads()， 癌 它 传 入 一 个 JSON 数 据 字 符 





串 。 请 注意 ，JSON 字 符 串 总 是 用 双 引 号 。 它 将 该 数据 返回 为 一 个 
Python 字典 。Python 字 典 是 没有 顺序 的 ， 所 以 如 果 打 印 
jsonDataAsPythonValue， 键 - 值 对 可 能 以 不 同 的 顺序 出 现 。 

14.4.2 用 dumps 函 数 写 出 JSON 


json.dumps() 函 数 ( 它 表示 “dump string”， 而 不 是 “dumps”) 将 一 个 
Python 值 转换 成 JSON 格 式 的 数据 字符 串 。 在 交互 式 环境 中 输入 以 下 代 
fg: 





>>> pythonValue = {'isCat': True, 'miceCaught': ©, 'name': 'Zophie’, 


"felineIQ': None} 


>>> import json 


>>> stringOfJsonData = json.dumps(pythonValue) 


>>> stringOfJsonData 


"{"isCat": true, "felineIQ": null, "miceCaught": ©, "name": "“Zophie" }' 








该 值 只 能 是 以 下 基本 Python 数据 类 型 之 一 : 字典、 列表 、 整 型 、 浮 
点 型 、 字 符 串 、 布 尔 型 或 None。 





14.5 项 目 : 取得 当前 的 天 气 数据 


检查 天 气 似乎 相当 简单 :打开 Web 浏 览 器 ， 点 击 地 址 栏 ， 输 入 天 气 
网 站 的 URL (或 搜索 一 个 ， 然 后 点 击 链 接 ) ， 等 竺 页面 加 载 ， 跳 过 所 有 


的 广告 等 。 


其 实 ， 如 果 有 一 个 程序 ， 下 载 今后 几 天 的 天 气 预 报 ， 并 以 纯 文 本 打 
印 出 来 ， 束 可 以 跳 过 很 多 无 聊 的 步骤 。 该 程序 利用 第 11 章 介绍 的 
requests 模 块 ， 从 网 站 下 载 数据 。 


总 的 来 说 ， 该 程序 将 执行 以 下 操作 : 


从 命令 行 读 取 请 求 的 位 置 。 

从 OpenWeatherMap.org 下 载 JSON 天 和气 数据 。 
将 JSON 数 据 字 符 串 转换 成 Python 的 数据 结构 。 
打印 今天 和 未 来 两 天 的 天 气 。 


因此 ， 代 码 需 要 完成 以 下 任务 : 
连接 sys.argv 中 的 字符 串 ， 得 到 位 置 。 


调用 requests.get()， 下 载 天 气 数 据 。 
调用 json.loads()， 将 JSON 数 据 转换 为 Python 数 据 结构 。 








。 打印 天 气 预报 。 
针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 
quickWeather.py。 
第 1 步 : 从 命令 行 参数 获取 位 置 
该 程序 的 输入 来 自命 令 行 。 让 quickWeather.py 看 起 来 像 这 样 : 


#! python3 
# quickWeather.py - Prints the weather for a location from the command line 


import json, requests, sys 


# Compute location from command line arguments. 
if len(sys.argv) < 2: 
print('Usage: quickWeather.py location') 
sys.exit() 
location = ' '.join(sys.argv[1:]) 


# TODO: Download the JSON data from OpenWeatherMap.org's API. 


# TODO: Load JSON data into a Python variable. 





在 Python 中 ， 命 令 行 参数 存储 在 sys.argv 列 表 里 。 胡 行 和 import 语 句 
之 后 ， 程 序 会 检查 是 否 有 多 个 命令 行 参数 《〈 回 想 一 下 ，sys.argv 中 至 少 
有 一 个 元 素 sys.argv[0]， 它 包含 了 Python 脚 本 的 文件 名 〉。 如 果 该 列表 
中 只 有 一 个 元 素 ， 那 么 用 户 没 有 在 命令 行 中 提供 位 置 ， 程 序 向 用 户 提 
供 “Usage“〈 用 法 ) ”信息 ， 然 后 结束 。 


命令 行 参数 以 空格 分 隔 。 命 令 行 参 数 San Francisco, CA 将 使 sys.argv 
中 保存 [quickWeather.py', 'San', 'Francisco,', 'CA']。 因 此 ， 调 用 joinO 方 
法 ， 将 sys.argv 中 除 第 一 个 字符 串 以 外 的 字符 串 连 接 起 来 。 将 连接 的 字 
符 串 存储 在 变量 location 中 。 


第 2 步 : 下 载 JSON 数 据 














OpenWeatherMap.org 提 供 了 JSON 格 式 的 实时 天 和 气 信息 。 你 的 程序 
只 需要 下 载 页 面 http:/api.openweathermap.org/data/2.5/forecast/daily?q=< 
Location>&cnt=3， 其 中 < Location> 是 想 知 道 天 气 的 城市 。 将 以 下 代码 添 
加 到 quickWeather.py 中 。 








#! python3 
# quickWeather.py - Prints the weather for a location from the command line 


--snip 


# Download the JSON data from OpenWeatherMap.org's API. 


url ='http://api.openweathermap.org/data/2.5/forecast/daily?q=%s&cnt=3' % ( 


response = requests.get(url) 


response.raise_for_status() 


# TODO: Load JSON data into a Python variable. 





我 们 从 命令 行 参数 中 得 到 了 location。 为 了 生成 要 访问 的 网 址 ， 我 
们 利用 %s 占 位 符 ， 将 location 中 保存 的 字符 串 插 入 URL 字 符 串 的 那个 位 
置 。 结 果 保 存在 ur 中， 并 将 url 传 入 requests.get() 。requests.getO 调 用 返回 
一 个 Response 对 象 ， 它 可 以 通过 调用 raise_for_status() 来 检查 错误 。 如 果 
不 发 生 异 常 ， 下 载 的 文本 将 保存 在 response.text 中 。 


第 3 步 : 加 载 JSON 数 据 并 打印 天 气 


response.text 成 员 变 量 保存 了 一 个 JSON 格 式 数 据 的 大 字符 串 。 要 将 
它 转 换 为 Python 值 ， 就 调用 json.loads0) 函 数 。JSON 数 据 会 像 这 样 : 











{'city': {'coord': {'lat': 37.7771, 'lon': -122.42}, 
“country': ‘United States of America’, 
'id': '5391959', 
"name': 'San Francisco’, 
"population': @}, 


"cnt': 3, 
"cod': '200', 
‘list’: [{'clouds': ©, 
"deg': 233, 
"dt': 1402344000, 
"humidity': 58, 
"pressure': 1012.23, 
"speed': 1.96, 
"temp': {'day': 302.29, 
"eve': 296.46, 
"max': 302.29, 
"min': 289.77, 
"morn': 294.59, 
"night': 289.77}, 
"Weather ': [{'description': ‘sky is clear’, 
‘icon': '@1d', 








可 以 将 weatherData 传 入 pprint.pprint， 查 看 这 个 数据 。 你 可 能 要 查 


找 http:/ openweathermap.org/ ， 找 到 关于 这 些 字 段 含义 的 文档 。 例 如 ， 
在 线 文档 会 告诉 你 ，'day' 后 面 的 302.29 是 白天 的 开尔文 温度 ， 而 不 是 摄 
氏 或 华氏 温度 。 


你 想 要 的 天 气 描述 在 main' 和 'description' 之 后 。 为 了 整齐 地 打印 出 
来 ， 在 quickWeather.py 中 添加 以 下 代码 。 





#! python3 
# quickWeather.py - Prints the weather for a location from the command 1i 


--snip 


# Load JSON data into a Python variable. 


weatherData = json.loads(response. text) 


# Print weather descriptions. 


@ w = weatherData['list'] 


print('Current weather in %s:' % (location) ) 


print(w[@]['weather'][@]['main'], '-', w[@]['weather'][@][ ‘description’ ]) 


print() 


print( ‘Tomorrow: ' ) 


print(w[1]['weather'][@]['main'], '-', w[1]['weather'][@][ ‘description’ ]) 


print() 


print('Day after tomorrow: ') 


print(w[2]['weather'][@]['main'], '-', w[2]['weather'][@][ ‘description’ ]) 








请 注意 ， 代 码 将 weatherDataflist] 保 存在 变量 w 中 ， 这 将 节省 一 些 打 
字 时 间 @。 可 以 用 w[0]、w[1] 和 w[2] 来 取得 今天 、 明 天 和 后 天 天 气 的 字 
典 。 这 些 字 上 典 都 有 "weather' 键 ， 其 中 包含 一 个 列表 值 。 你 感 兴趣 的 是 第 
一 个 列表 项 〈 一 个 嵌 套 的 字典 ， 包 含 几 个 键 ) ， 下 标 是 0。 这 里 ， 我 们 
打印 出 保存 在 'main' 和 'description' 键 中 的 值 ， 用 连 字 符 隔 开 。 








如 果 用 命令 行 参数 quickWeather.py San Francisco, CA 运行 这 个 程 
序 ， 输 出 看 起 来 是 这 样 的 : 


Current weather in San Francisco, CA: 
Clear - sky is clear 


Tomorrow: 
Clouds - few clouds 


Day after tomorrow: 
Clear - sky is clear 





《天 气 是 我 喜欢 住 在 旧金山 的 原因 之 一 ! ) 
第 4 步 : 类 似 程序 的 想法 


访问 气象 数据 可 以 成 为 多 种 类 型 程序 的 基础 。 你 可 以 创建 类 似 程 
FR, 完成 以 下 任务 : 


。 收集 几 个 露营 地 点 或 远足 路 线 的 天 气 预 报 ， 看 看 哪 一 个 天 气 最 好 。 
。 如 果 需 要 将 植物 移 到 室内 ， 安 排 一 个 程序 定期 检查 天 气 并 发 送 箱 冻 
pA eee ens ene nae 

Je 
。 从 多 个 站 点 获得 气象 数据 ， 同 时 显示 ， 或 计算 并 显示 多 个 天 气 预 报 
的 平均 值 。 











14.6 小 结 
CSV 和 JSON 是 常见 的 纯 文 本 格式 ， 用 于 保存 数据 。 它 们 很 容易 被 


程序 解析 ， 同 时 仍然 让 人 可 读 ， 所 以 它们 经 常 被 用 作 简 单 的 电子 表格 或 
网 络 应 用 程序 的 数据 。csv 和 json 模 块 大 大 简化 了 读 取 和 写 入 CSV 和 
JSON 文 件 的 过 程 。 


前 面 几 章 教 你 如 何 利 用 Python 从 各 种 各 样 的 文件 格式 的 解析 信息 。 
一 个 常见 的 任务 是 接受 多 种 格式 的 数据 ， 解 析 它 ， 并 获得 需要 的 特定 信 
恩 。 这 些 任务 往往 非常 特别 ， 商 业 软 件 并 不 是 最 有 帮助 的 。 通 过 编写 日 
己 的 脚本 ， 可 以 让 计算 机 处 理 大 量 以 这 些 格式 呈现 的 数据 。 


在 第 15 章 ， 你 将 从 数据 格式 中 择 胶 ， 和 学 习 如 何 让 程序 与 你 通信 ， 友 
送 电子 邮件 和 文本 消息 。 

















14.7 习题 
1， 哪 些 功能 是 Excel 电 子 表格 有 ， 而 CSV 电 子 表格 没有 ? 


2.， 问 csv.reader0 和 csv.writerO 传 入 什么 ， 来 创建 Reader 和 Writer 对 
象 ? 


3. 对 于 Reader 和 和 Writer 对象，File 对 象 需要 以 什么 模式 打开 ? 
4. 什么 方法 接受 一 个 列表 参数 ， 并 将 其 写 入 CSV 文 件 ? 
5. delimiter 和 lineterminator 关 键 字 参数 有 什么 用 ? 


什么 函数 接受 一 个 JSON 数 据 的 字符 串 ， 并 返回 一 个 Python 数 据 





sett? 
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14.8 实践 项 目 

作为 实践 ， 编 程 完成 下 列 任务 。 
Excel 到 CSV 的 转换 程序 








Excel 可 以 将 电子 表格 保存 为 CSV 文 件 ， 只 要 点 几 下 鼠标 ， 但 如 果 
有 几 百 个 Excel 文 件 要 转换 为 CSV， 束 需要 点 击 几 小 时 。 利 用 第 12 章 的 
人 编程 读 取 当前 工作 目录 中 的 所 有 Excel 文 件 ， 并 输出 为 
CSV 文 件 。 


一 个 Excel 文 件 可 能 包含 多 个 工作 表 ， 必 须 为 每 个 表 创 建 一 个 CSV 
文件 。CSV 文 件 的 文件 名 应 该 是 < Excel 文 件 名 >_< 表 标 题 >.csv， 其 中 < 
Excel 文 件 名 > 是 没有 扩展 名 的 Excel 文 件 名 (例如 'spam_data'"， 而 不 
是 'spam_data.xlsx') ，< 表 标 题 > 是 Worksheet 对 象 的 title 变 量 中 的 字符 
四 


该 程序 将 包含 许多 杉 套 的 for 循 环 。 该 程序 的 框架 看 起 来 像 这 样 : 














for excelFile in os.listdir('.'): 
# Skip non-xlsx files, load the workbook object. 
for sheetName in wb.get_sheet_names(): 
# Loop through every sheet in the workbook. 
sheet = wb.get_sheet_by_name(sheetName) 


# Create the CSV filename from the Excel filename and sheet title. 
# Create the csv.writer object for this CSV file. 


# Loop through every row in the sheet. 
for rowNum in range(1, sheet.get_highest_row() + 1): 


rowData = [] # append each cell to this list 

# Loop through each cell in the row. 

for colNum in range(1, sheet.get_highest_column() + 1): 
# Append each cell's data to rowData. 


# Write the rowData list to the CSV file. 


csvFile.close() 





从 http://nostarch.com/automatestuff/ 下 载 ZIP 文 件 
eXcelSpreadsheets.zip， 将 这 些 电子 表格 解压 缩 到 程序 所 在 的 目录 中 。 可 
以 使 用 这 些 文件 来 测试 程序 。 


第 15 章 ”保持 时 间 、 计 划 任 务 和 局 
动 程 序 


坐 在 电脑 前 运行 程序 是 不 错 的 ， 但 在 你 没有 直接 监督 时 运行 程序 ， 
也 是 有 用 的 。 计 算 机 的 时 钟 可 以 调度 程序 ， 在 特定 的 时 间 和 日 期 运行 ， 
或 定期 运行 。 例 如 ， 程 序 可 以 每 小 时 抓 取 一 个 网 站 ， 检 查 变更 ， 或 在 凌 
展 4 点 你 睡觉 时 ， 执 行 CPU 密 集 型 任务 。Python 的 time 和 datetime 模 块 提 
供 了 这 些 函 数 。 


利用 subprocess 和 threading 模 块 ， 你 也 可 以 编程 按时 启动 其 他 程序 。 
通常 ， 编 程 最 快 的 方法 是 利用 其 他 人 已 经 写 好 的 应 用 程序 。 























15.1 time 模 块 


计算 机 的 系统 时 钟 设 置 为 特定 的 日 期 、 时 间 和 时 区 。 内 置 的 time 模 
块 让 Python 程 序 能 读 取 系统 时 钟 的 当前 时 间 。 在 time 模 块 中 ，time.time() 
和 time.sleep0) 函 数 是 最 有 用 的 模块 。 





15.1.1 time.time() 函 数 


Unix 纪 元 是 编程 中 经 常 参考 的 时 间 : 1970 年 1 月 1 日 0 点 ， 即 协调 世 
界 时 〈UTC) 。time.time0 函 数 返 回 自 那 一 刻 以 来 的 秒 数 ， 是 一 个 浮 点 
值 〈 回 想 一 下 ， 浮 点 值 只 是 一 个 带 小 数 点 的 数 ) 。 这 个 数字 称 为 UNIX 
纪元 时 间 惟 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 ; 











>>> import time 


>>> time.time() 


1425063955 .968649 





这 里 ， 我 在 2015 年 2 月 27 日 ， 太 平 洋 标准 时 间 11:05 (或 7:05 PM 
UTC) ， 调 用 time.time()。 返 回 值 是 Unix 纪 元 的 那 一 刻 与 time.time() 被 调 
用 的 那 一 刻 之 间 的 秒 数 。 
交互 式 环境 的 例子 得 到 的 日 斯 和 时 间 ， 是 我 在 2015 年 2 月 写 这 一 章 的 时 间 。 除 非 你 是 时 间 旅 行 
者 ， 否 则 得 到 的 日 期 和 时 间 会 不 同 。 

纪元 时 间 惟 可 以 用 于 剖析 代码 ， 也 就 是 测量 一 段 代 码 的 运行 时 间 。 
如 果 在 代码 块 开 始 时 调用 time.time0， 并 在 结束 时 再 次 调用 ， 就 可 以 用 
第 二 个 时 间 截 减 去 第 一 卜 ， 得 到 这 两 次 调用 之 间 经 过 的 时 间 。 例 如 ， 打 
开 一 个 新 的 文件 编辑 器 窗口 ， 然 后 输入 以 下 程序 : 












































import time 
@ def calcProd(): 
# Calculate the product of the first 100,000 numbers. 
product = 1 
for i in range(1, 100000): 
product = product * i 
return product 


@ startTime = time.time() 


prod = calcProd() 
© endTime = time.time() 
© print('The result is %s digits long.’ % (len(str(prod)))) 
© print('Took %s seconds to calculate.' % (endTime - startTime)) 





EQT, FANT Sr BMealcProd(), iii 1E99999 A, WK 
回 它们 的 乘积 。 在 信行 ， 我 们 调用 time.time()， 将 结果 保存 在 startTime 
中 。 调 用 calcProdO 后 ， 我 们 再 次 调用 time.time()， 将 结果 保存 endTime 中 


合 。 最 后 我 们 打印 calcProd0 返 回 的 乘积 的 长 度 候 ， 以 及 运行 calcProd() 
的 时 间 @。 


将 该 程序 保存 为 calcProd.py， 并 运行 它 。 输 出 看 起 来 像 这 样 : 


The result is 456569 digits long. 


Took 2.844162940979004 seconds to calculate. 





SEE 
注意 


另 一 种 剖析 代码 的 方法 是 利用 cProfile.run0 函 数 。 与 简单 的 tme.time0 技 术 相 比 ， 它 提供 了 详细 
的 信息 。cProfile.run() 函 数 在 https://docs.python.org/3/library/ profile.html 有 解释 。 











15.1.2 time.sleep() 函 数 


如 果 需 要 让 程序 暂停 一 下 ， 就 调用 time.sleep() 函 数 ， 并 传 入 希望 程 
序 暂 停 的 秒 数 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> import time 


>>> for i in range(3): 


© print('Tick') 


@ time.sleep(1) 


© print('Tock') 


© time.sleep(1) 


Tick 
Tock 
Tick 
Tock 
Tick 
Tock 
© >>> time.sleep(5) 





forf} ENTick®, pA, FTENTock®, BE pip 
人 @， 打 印 Tick， 暂 停 ， 如 此 继续 ， 直 到 Tick 和 Tock 分 别 被 打印 3 次 。 


time.sleep() 函 数 将 阻 窒 (也 束 是 说 ， 它 不 会 返回 或 让 程序 执行 其 他 
代码 ) ， 直 到 传递 给 time.sleepO 的 秒 数 流逝 。 例 如 ， 如 果 输 入 
time.sleep(5) 合 ， 会 在 5 秒 后 才 看 到 下 一 个 提示 符 (>>>) 。 


请 注意 ， 在 IDLE 中 按 Ctrl-C 不 会 中 断 time.sleepO 调 用 。IDLE 会 等 竺 
到 暂停 结束 ， 再 抛 出 KeyboardInterrupt 异 常 。 要 绕 过 这 个 问题 ， 不 要 用 
一 次 time.sleep(30) 调 用 来 暂停 30 秒 ， 而 是 使 用 for 循 环 执行 30 次 
time.sleep(1) iil H - 


>>> for i in range(36) : 


time.sleep(1) 





如 果 在 这 30 秒 内 的 某 个 时 候 按 Ctrl-C， 应 该 马上 看 到 抛 出 


KeyboardInterrupt 异 常 。 


15.2 数字 四 舍 五 入 


在 处 理 时 间 时 ， 你 会 经 常 过 到 小 数 点 后 有 许多 数字 的 浮 点 值 。 为 了 
让 这 些 值 更 易于 处 理 ， 可 以 用 Python 内 置 的 roundO) 函 数 将 它们 缩短 ， 该 
函数 按照 指定 的 精度 四 人 镶 五 入 到 一 个 译 点 数 。 只 要 传 入 要 舍 入 的 数字 ， 
再 加 上 可 选 的 第 二 个 参数 ， 指 明 需 要 传 入 到 小 数 点 后 多 少 位 。 如 果 省 略 
第 二 个 参数 ，round0 将 数字 四 人 铭 五 入 到 最 接近 的 整数 。 在 交互 式 环 境 中 
输入 以 下 代码 : 











>>> import time 


>>> now = time.time() 


>>> NOW 


1425064108 .06017826 
>>> round(now, 2) 


1425064108 .62 
>>> round(now, 4) 


1425064108 .0178 
>>> round(now) 


1425064108 





导入 time， 将 time.time() 保 存在 now 中 之 后 ， 我 们 调用 round(now, 
2)， 将 now 伟 入 到 小 数 点 后 两 位 数字 ，roundCnow, 4) A BRUS Ja py 
位 数字 ，round(now) 舍 入 到 最 接近 的 整数 。 


15.3 项 目 : 超级 秒表 


假设 要 记录 在 没有 自动 化 的 枯燥 任务 上 花 了 多 少时 间 。 你 没有 物理 
秒表 ， 要 为 笔记 本 或 智能 手机 找到 一 个 免费 的 秒表 应 用 ， 没 有 广告 ， 且 
不 会 将 你 的 浏览 历史 发 送 给 市 场 营销 人 员 ， 又 出 乎 意料 地 困难 (在 你 同 
意 的 许可 协议 中 ， 它 说 它 可 以 这 样 做 。 你 确实 阅读 了 许可 协议 ， 不 是 
吗 ? ) 。 你 可 以 自己 用 Python 写 一 个 简单 的 秒表 程序 。 





总 的 来 说 ， 你 的 程序 需要 完成 : 


”记录 从 按 下 同年 键 开始 ， 每 次 按键 的 时 间 ， 每 次 按键 部 是 一个 
Bee 
。 打 印 圈 数 、 总 时 间 和 单 圈 时 间 。 


这 意味 着 代码 将 需要 完成 以 下 任务 : 


e 在 程序 开始 时 ， 通 过 调用 time.time() 得 到 当前 时 间 ， 将 它 保存 为 一 
个 时 间 礁 。 在 每 个 单 疾 开始 时 也 一 样 。 

。 记录 圈 数 ， 每 次 用 户 按 下 回 车 键 时 加 1。 

。 用 时 间 戳 相 减 ， 得 到 计算 流逝 的 时 间 。 

。 处 理 KeyboardInterrupt 异 常 ， 这 样 用 户 可 以 按 Ctrl-C 退 出 。 


打开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 stopwatch.py。 
第 1 步 : 设置 程序 来 记录 时 间 

秒表 程序 需要 用 到 当前 时 间 ， 所 以 要 导入 的 time 模 块 。 程 序 在 调用 
input0 之 前 ， 也 应 该 向 用 户 打印 一 些 简 短 的 说 明 ， 这 样 计 时 器 可 以 在 用 


户 按 下 回 车 键 后 开始 。 然 后 ， 代 码 将 开始 记录 单 痢 时 间 。 在 文件 编辑 器 
中 输入 以 下 代码 ， 为 其 余 的 代码 编写 TODO 注 释 ， 作 为 占 位 符 : 








#! python3 
# stopwatch.py - A simple stopwatch program. 


import time 


# Display the program's instructions. 
print('Press ENTER to begin. Afterwards, press ENTER to "click" the stopwat 
Press Ctrl-C to quit.') 


input () # press Enter to begin 
print('Started.') 

startTime = time.time() # get the first lap's start time 
lastTime = startTime 

lapNum = 1 


# TODO: Start tracking the lap times. 











既然 我 们 已 经 编码 显示 了 用 户 说 明 ， 那 就 开始 第 一 闭 ， 记 下 时 间 ， 
并 将 图 数 设 为 1。 


第 2 步 : 记录 并 打印 单 圈 时 间 





现在 ， 让 我 们 编码 开始 每 一 个 新 的 单 圈 ， 计 算 前 一 轿 伦 了 多 少时 
间 ， 并 计算 上 自 局 动 秒 表 后 经 过 的 总 时 间 。 我 们 将 显示 的 单 圈 时 间 和 总 时 
间 ， 为 每 个 新 的 单 圈 增加 圈 计 数 。 将 下 面 的 代码 添加 到 程序 中 : 





#! python3 
# stopwatch.py - A simple stopwatch program. 


import time 


--snip 


# Start tracking the lap times. 


@ try: 


@ while True: 


input() 


3) lapTime = round(time.time() - lastTime, 2) 


@ totalTime = round(time.time() - startTime, 2) 
© print('Lap #%s: %s (%s)' % (lapNum, totalTime, lapTime), end='') 
lapNum += 1 


lastTime = time.time() # reset the last lap time 


© except KeyboardInterrupt: 


# Handle the Ctrl-C exception to keep its error message from displaying 


print('\nDone.') 


ee 


如 果 用 户 按 Ctrl-C 停 止 秒表 ，KeyboardImterrupt 异 常 将 抛 出 ， 如 果 程 
序 的 执行 不 是 一 个 try 语 句 ， 束 会 朋 沉 。 为 了 防止 月 尝 ， 我 们 将 这 部 分 程 
序 包装 在 一 个 try 语 句 中 @。 我 们 将 在 except 子 句 中 处 理 异 常 @， 所 以 当 
Ctrl-C 按 下 并 引发 异常 时 ， 程 序 执行 转 同 except 子 句 ， 打 印 Done， 而 不 
是 KeyboardInterrupt 错 误 消 息 。 在 此 之 前 ， 执 行 处 于 一 个 无 限 循环 中 
名， 调用 input0 并 等 待 ， 直 到 用 户 按 下 回 车 键 结束 一 圈 。 当 一 圈 结 
时 ， 我 们 用 当前 时 间 time.timegO 减 去 该 圈 开 始 的 时 间 lastTime， 计 算 访 
花 了 多 少时 间 合 。 我 们 用 当前 时 间 减 去 秒表 最 开始 启动 的 时 间 
startTime， 计 算 总 共 流 近 的 时 间 @。 


由 于 这 些 时 间 计 算 的 结果 在 小 数 点 后 有 许多 位 《如 
4.766272783279419) ， 所 以 我 们 在 @ 和 @ 行 用 round0) 函 数 ， 将 浮 点 值 
四 舍 五 入 到 小 数 点 后 两 位 。 


在 加 行 ， 我 们 打印 出 圈 数 ， 消 耗 的 总 时 间 和 单 圈 时 间 。 由 于 用 户 为 
inputO 调 用 按 下 回 车 时 ， 会 在 屏幕 上 打印 一 个 换行 ， 所 以 我 们 同 printO 
函数 传 入 end="， 避 人 锡 输 出 重复 空 行 。 打 印 单 圈 信息 后 ， 我 们 将 计数 絮 
lapNum 加 1， 将 lastTime 设 置 为 当前 时 间 《〈 这 就 是 下 一 圈 的 开始 时 
间 ) ， 从 而 为 下 一 圈 做 好 准备 。 


第 3 步 : 类 似 程序 的 想法 


时 间 退 踊 为 程序 打开 了 几 种 可 能 性 。 虽 然 可 以 下 载 应 用 程序 来 做 其 
中 一 些 事情 ， 但 目 己 编程 的 好 处 是 它们 是 免费 的 ， 而 且 不 会 充斥 着 广告 
和 无 用 的 功能 。 可 以 编写 类 似 的 程序 来 完成 以 下 任务 : 


。 创建 一 个 简单 的 工时 表 应 用 程序 ， 当 输入 一 个 人 的 名 字 时 ， 用 当前 
的 时 间 记 录 下 他 们 进入 或 离开 的 时 间 。 

。 为 你 的 程序 添加 一 个 功能 ， 显 示 自 一 项 处 理 开 始 以 来 的 时 间 ， 诸 如 
利用 requests 模 块 进行 的 下 载 〈 参 见 第 11 瘟 ) 。 

。 间歇 性 地 检查 程序 已 经 运行 了 多 和 久 ， 并 为 用 户 提供 了 一 个 机 会 ， 取 
消耗 时 太 长 的 任务 。 





























15.4 datetime 模 块 


time 模 块 用 于 取得 Unix 纪 元 时 间 戳 ， 并 加 以 处 理 。 但 是 ， 如 果 以 更 
方便 的 格式 显示 日 期 ， 或 对 日 期 进行 算术 运算 〈 例 如 ， 搞 清楚 205 天 前 
是 什么 日 期 ， 或 123 天 后 是 什么 日 期 ) ， 就 应 该 使 用 datetime 模 块 。 


datetime 模 块 有 自己 的 datetime 数 据 类 型 。datetime 值 表示 一 个 特定 
的 时 刻 。 在 交互 式 环境 中 输入 以 下 代码 : 








>>> import datetime 


@ >>> datetime.datetime.now() 


ə datetime.datetime(2015, 2, 27, 11, 10, 49, 55, 53) 
© >>> dt = datetime.datetime(2015, 10, 21, 16, 29, @) 


@ >>> dt.year, dt.month, dt.day 


(2015, 10, 21) 
>>> dt.hour, dt.minute, dt.second 


(16, 29, ©) 


[L CR 


Val FA datetime.datetime.now()@i E] —datetimex} RO, Kn 
的 日 期 和 时 间 ， 根 据 你 的 计算 机 的 时 钟 。 这 个 对 象 包 含 当前 时 刻 的 年 、 
月 、 日 、 时 、 分 、 秒 和 微 秒 。 也 可 以 利用 datetime.datetimeO 函 数 仿 ， 癌 
它 传 入 代表 年 、 月 、 日 、 时 、 分 、 秒 的 整数 ， 得 到 特定 时 刻 的 datetime 
对 象 。 这 些 整 数 将 保存 在 datetime 对 象 的 year、month、day@、hour、 
minute 和 second 全 属性 中 。 





Unix 纪 元 时 间 惟 可 以 通过 datetime.datetime.fromtimestamp(O， 转 换 为 
datetime 对 象 。datetime 对 象 的 日 期 和 时 间 将 根据 本 地 时 区 转换 。 在 交互 
式 环境 中 输入 以 下 代码 : 


>>> datetime.datetime.fromtimestamp (1000000) 


datetime.datetime(1970, 1, 12, 5, 46, 40) 
>>> datetime.datetime.fromtimestamp(time.time() ) 


datetime.datetime(2015, 2, 27, 11, 13, ©, 604980) 





调用 datetime.datetime.fromtimestampO 并 传 入 1000000， 返 回 一 个 
datetime 对 象 ， 表 示 Unix 纪 元 后 1000000 秒 的 时 刻 。 传 入 time.time()， 即 
当前 时 刻 的 Unix 纪 元 时 间 惟 ， 则 返回 当前 时 刻 的 datetime 对 象 。 因 此 ， 
表达 式 datetime.datetime.now() 和 
datetime.datetime.fromtimestamp(time.time()) 做 的 事情 相同 ， 它 们 都 返回 
当前 时 刻 的 datetime 对 象 。 


yy 


X 
ES 


这 些 例子 是 在 一 台 设 置 了 太平 洋 标准 时 间 的 计算 机 上 输入 的 。 如 果 你 在 男 一 个 时 区 ， 结 果 会 





























有 所 不 同 。 


datetime 对 象 可 以 用 比较 操作 符 进 行 比较 ， 弄 清楚 谁 在 前 面 。 后 面 
的 datetime 对 象 是 “更 大 ”的 值 。 在 交互 式 环 境 中 输入 以 下 代码 : 





@ >>> halloween2015 = datetime.datetime(2015, 10, 31, ©, ©, @) 


@ >>> newyears2016 = datetime.datetime(2016, 1, 1, ©, ©, @) 


>>> oct31_2015 = datetime.datetime(2015, 10, 31, ©, ©, 0) 


© >>> halloween2@15 == oct31_2015 


True 
@ >>> halloween2015 > newyears2016 


False 
© >>> newyears2016 > halloween2015 


True 
>>> newyears2016 != oct31_2015 


True 


为 2015 年 10 月 31 日 的 第 一 个 时 刻 《〈 午 夜 ) 创建 一 个 datetime 对 象 ， 
将 它 保 存在 halloween2015 中 人 @。 为 2016 年 1 月 1 日 的 第 一 个 时 刻 创建 一 个 
datetime 对 象 ， 将 它 保存 在 newyears2016 中 人 四。 然后 ， 为 2015 年 10 月 31 
日 的 午夜 创建 另 一 个 对 象 ， 将 它 保存 在 oct31 2015 中 。 比 较 
halloween2015 和 oct31_2015， 它 们 是 相等 的 @。 比 较 newyears2016 和 
halloween2015，newyears2016 大 于 (了 晚 于 ) halloween2015 @@. 


15.4.1 timedelta 数 据 类 型 


datetime 横 块 还 提供 了 timedelta 数 据 类 型 ， 它 表示 一 段 时 间 ， 而 不 是 
一 个 时 刻 。 在 交互 式 环境 中 输入 以 下 代码 : 





@ >>> delta = datetime.timedelta(days=11, hours=10, minutes=9, seconds=8) 


@ >>> delta.days, delta.seconds, delta.microseconds 


(11, 36548, @) 
>>> delta.total_seconds() 


986948 .6 
>>> str(delta) 
"11 days, 10:09:08' 


要 创建 tmedelta 对 象 ， 就 用 datetime.timedelta0 函 数 。 
datetime.timedelta0 函 数 接受 关键 字 参 数 weeks、days、hours、minutes、 
seconds、milliseconds 和 microseconds。 没 有 month 和 year 关 键 字 参数 ， 
为 “月 ?和 “年 ”是 可 变 的 时 间 ， 依 赖 于 特定 月 份 或 年 份 。timedelta 对 象 拥 
有 的 总 时 间 以 天 、 秒 、 微 秒 来 表示 。 这 些 数 字 分 别 保 存在 days、seconds 
和 microseconds 属 性 中 。total_seconds0) 方 法 返回 只 以 秒表 示 的 时 间 。 将 
一 个 tmedelta 对 象 传 入 str()， 将 返回 格式 良好 的 、 人 类 可 读 的 字符 串 表 
示 。 


在 这 个 例子 中 ， 我 们 将 关键 字 参 数 传 入 datetime.delta()， 指 定 11 
天 、10 小 时 、9 分 和 8 秒 的 时 间 ， 将 返回 的 timedelta 对 象 保存 在 delta 中 
和 加。 该 timedelta 对 象 的 days 属 性 为 11，seconds 属 性 为 36548 (10 小 时 、9 
分 钟 、8 秒 ， 以 秒表 示 ) 人 @。 调 用 total_seconds0) 告 诉 我 们 ，11 天 、10 小 
时 、9 分 和 8 秒 是 986948 秒 。 最 后 ， 将 这 个 timedelta 对 象 传 入 str()， 返 回 
一 个 字符 串 ， 明 确 解释 了 这 上 段 时 间 。 


算术 运算 符 可 以 用 于 对 datetime 值 进行 日 期 运算 。 例 如 ， 要 计算 今 
天 之 后 1000 天 的 日 期 ， 在 交互 式 环境 中 输入 以 下 代码 : 





>>> dt = datetime.datetime.now() 


>>> dt 


datetime.datetime(2015, 2, 27, 18, 38, 50, 636181) 
>>> thousandDays = datetime. timedelta(days=1000) 


>>> dt + thousandDays 


datetime.datetime(2017, 11, 23, 18, 38, 50, 636181) 





首先 ， 生 成 表示 当前 时 刻 的 datetime 对 象 ， 保 存在 dt 中 。 然 后 生成 
一 个 timedelta 对 象 ， 表 示 1000 天 ， 保 存在 thousandDays 中 。dt 与 
thousandDays 相 加 ， 得 到 一 个 datetime 对 象 ， 表 示 现 在 之 后 的 1000 天 。 
Python 将 完成 日 期 运算 ， 弄 清楚 2015 年 2 月 27 日 之 后 的 1000 天 ， 将 是 
2017 年 11 月 23 日 。 这 很 有 用 ， 因 为 如 果 要 从 一 个 给 定 的 日 期 计算 1000 天 











之 后 ， 需 要 记 住 每 个 月 有 多 少 天 ， 装 年 的 因素 和 其 他 环 手 的 细节 。 
datetime 模 块 为 你 处 理 所 有 这 些 问题 。 


利用 + 和 -运算 符 ，timedelta 对 象 与 datetime 对 象 或 其 他 timedelta 对 象 
相 加 或 相 减 。 利 用 * 和 /运算 符 ，timedelta 对 象 可 以 乘 以 或 除 以 整数 或 浮 
点 数 。 在 交互 式 环境 中 输入 以 下 代码 : 





@ >>> oct21st = datetime.datetime(2015, 10, 21, 16, 29, @) 


@ >>> aboutThirtyYears = datetime.timedelta(days=365 * 30) 


>>> oct21ist 


datetime.datetime(2015, 10, 21, 16, 29) 


>>> Oct21st - aboutThirtyYears 


datetime.datetime(1985, 10, 28, 16, 29) 
>>> Oct21st - (2 * aboutThirtyYears) 


datetime.datetime(1955, 11, 5, 16, 29) 





这 里 ， 我 们 生成 了 一 个 DateTime 对 象 ， 表 示 2015 年 10 月 21 日 @, 以 
及 一 个 timedelta 对 象 ， 表 示 大 约 30 年 的 时 间 (我 们 假设 每 年 为 365 天 ) 
人 全。 从 oct21st 中 减 去 aboutThirtyYears， 我 们 就 得 到 一 个 datetime 对 象 ， 
表示 2015 年 10 月 21 日 前 30 年 的 一 天 。 从 oct21st 中 减 去 2 * 
aboutThirtyYears， 得 到 一 个 datetime 对 象 ， 表 示 2015 年 10 月 21 日 之 前 60 
年 的 一 天 。 


15.4.2 暂停 直至 特定 日 期 


time.sleep(0) 方 法 可 以 暂停 程序 藻 干 秒 。 利 用 一 个 while 循 环 ， 可 以 让 
程序 暂停 ， 直 到 一 个 特定 的 日 期 。 例 如 ， 下 面 的 代码 会 继续 循环 ， 直 到 
2016F JE: 








import datetime 

import time 

halloween2016 = datetime.datetime(2016, 10, 31, ©, ©, @) 

while datetime.datetime.now() < halloween2e16: 
time.sleep(1) 





time.sleep(1) 调 用 将 暂停 你 的 Python 程序 ， 这 样 计 算 机 不 会 浪费 CPU 


处 理 周 期 ， 一 过 又 一 通 地 检查 时 间 。 相 反 ，while 循 环 只 是 每 秒 检查 一 
次 ， 在 2016 年 万 至 市 (或 你 编程 让 它 停止 的 时 间 〉 后 继续 执行 后 面 的 程 
序 。 


15.4.3 将 datetime 对 象 转换 为 字符 串 

Unix 纪 元 时 间 惟 和 datetime 对 象 对 人 类 来 说 都 不 是 很 友好 可 读 。 利 
用 strftime0) 方 法 ， 可 以 将 datetime 对 象 显 示 为 字符 串 。 (strftimeQ AAA 
中 的 {表示 格式 ，format) 。 


该 的 strftime() 方 法 使 用 的 指令 类 似 于 Python 的 字符 串 格 式 化 。 表 15- 
1 列 出 了 完整 的 strftime() 指 令 。 


表 15-1 strftime() 指 令 














strftime 指 令 


带 世 纪 的 年 份 ， 例 如 2014， 

不 带 世 纪 的 年 份 ，'00' 至 '99' (1970422069 ) 
数字 表示 的 月 份 , 01 至 '12， 

完整 的 月 份 ， 例 如 November 




















” 月份 ， 例 如 'Nov 
月 中 的 第 几 天 ，'01' 至 '31' 
ERANKO HED EE AAD 




















%A 完整 的 周 几 ， 例 如 'Monday' 


MSR, Piaron 


问 strftime0 传 入 一 个 定制 的 格式 字符 串 ， 其 中 包含 格式 化 指定 《以 
及 任何 需要 的 斜 线 、 冒 号 等 ) ，strftime() 将 返回 一 个 格式 化 的 字符 串 ， 
表示 datetime 对 象 的 信息 。 在 交互 式 环境 中 输入 以 下 代码 : 











>>> oct21st = datetime.datetime(2015, 10, 21, 16, 29, @) 


>>> oct21ist.strftime('%Y/%m/%d %H:%M:%S" ) 


"2015/10/21 16:29:@0' 
>>> oct21ist.strftime('%1I:%M %p' ) 


"04:29 PM' 
>>> oct21ist.strftime("%B of '%y") 


"October of '15" 








这 里 ， 我 们 有 一 个 datetime 对 象 ， 表 示 2015 年 10 月 21 日 下 午 4 点 29 
分 ， 保 存在 oct21lst 中 。 向 strftime0O 传 入 定制 的 格式 字符 串 '%Y/%my/%d 
%H:%M:%S， 返 回 一 个 字符 串 ， 包 含 以 斜 杠 分隔 的 2015、10 和 21， 以 
冒号 分 隔 的 16、29 和 00。 传 入 %I9%M9% p' 则 返回 '04:29 PM'， 传 入 "%B 
of '%y" 则 返回 "October of '15"。 请 注意 ，strftime() 不 是 以 
datetime.datetime 开 始 。 


15.4.4 将 字符 串 转 换 成 datetime 对 象 


如 果 有 一 个 字符 串 的 日 期 信息 ， 如 '2015/10/21 16:29:00' 或 'October 
21, 2015'， 需 要 将 它 转换 为 datetime 对 象 ， 就 用 
datetime.datetime.strftime() Kt. strptime0 %5 strftime0 FWIEAA I. FE 
制 的 格式 字符 串 使 用 相同 的 指令 ， 像 strftime() 一 样 。 必 须 将 格式 字符 串 
传 入 strptime0， 这 样 它 就 知道 如 何 解析 和 理解 日 期 字符 串 〈strptimeO) 函 
数 名 中 p 表 示 解 析 ，parse)。 


在 交互 式 环境 中 输入 以 下 代码 : 





@ >>> datetime.datetime.strptime('October 21, 2015', '%B %d, %Y') 


datetime.datetime(2015, 10, 21, ©, @) 
>>> datetime.datetime.strptime(' 2015/10/21 16:29:00', '%Y/%m/%d %H:%M:%S ' 





datetime.datetime(2015, 10, 21, 16, 29) 
>>> datetime.datetime.strptime("October of '15", "%B of '%y") 


datetime.datetime(2015, 10, 1, ©, @) 
>>> datetime.datetime.strptime("November of '63", "%B of '%y") 


datetime.datetime(2063, 11, 1, ©, @) 





要 从 字符 串 'October 21, 2015' 取 得 一 个 datetime 对 象 ， 将 'October 21, 
2015' 作 为 第 一 个 参数 传递 给 strptime()， 并 将 对 应 于 'October 21, 2015' 的 
定制 格 趟 字符 申 作为 第 二 个 参数 @。 带 有 日 期 信息 的 字符 目 必须 准确 下 
配 定 制 的 格式 字符 串 ， 否 则 Python 将 抛 出 ValueError 异 常 。 


15.5 回顾 Python 的 时 间 函 数 


在 Python 中 ， 日 期 和 时 间 可 能 涉及 好 几 种 不 同 的 数据 类 型 和 函数 。 
下 面 回顾 了 表示 时 间 的 3 种 不 同类 型 的 值 : 





。 Unix 纪 元 时 间 惟 “time 模块 中 使 用 ) 是 一 个 浮 点 值 或 整 型 值 ， 表 示 
自 1970 年 1 月 1 日 午夜 0 点 〈UTC) 以 来 的 秒 数 。 

e datetime 对 象 〈 属 于 datetime 模 块 ) 包含 一 些 整 型 值 ， 保 存在 year、 
month、day、hour、minute 和 second 等 属性 中 。 

。timedelta 对 象 〈 属 于 datetime 模 块 ) 表示 的 一 段 时 间 ， 而 不 是 一 个 特 
定 的 时 刻 。 


下 面 回顾 了 时 间 函 数 及 其 参数 和 返回 值 : 











time.time() 函 数 返回 一 个 浮 点 值 ， 表 示 当 前 时 刻 的 Unix 纪 元 时 间 
ER 


。 time.sleep(seconds) 函 数 让 程序 暂停 seconds 参 数 指 定 的 秒 数 。 

datetime.datetime(year, month, day, hour, minute, second) 函 数 返 回 参 

数 指定 的 时 刻 的 datetime 对 象 。 如 果 没 有 提供 hour、minute 或 second 

参数 ， 它 们 默认 为 0。 

e datetime.datetime.now() 函 数 返 回 当前 时 刻 的 datetime 对 象 。 

datetime.datetime.fromtimestamp(epocb) 函 数 返 回 epoch 时 间 惟 参数 表 

示 的 时 刻 的 datetime 对 象 。 

datetime.timedelta(weeks, days, hours, minutes, seconds, milliseconds, 

microseconds) 函 数 返 回 一 个 表示 一 段 时 间 的 timedelta 对 象 。 访 函数 

的 关键 字 参 数 都 是 可 选 的 ， 不 包括 month 或 year。 

。 total_seconds() 方 法 用 于 timedelta 对 象 ， 返 回 timedelta 对 象 表 示 的 秒 
数 


e strftime(format) 方 法 返回 一 个 字符 串 ， 用 format 字 符 串 中 的 定制 格式 
来 表示 datetime 对 象 表示 的 时 间 。 详 细 格 式 参见 表 15-1。 

e datetime.datetime.strptime(time_string, formab) 函 数 返 回 一 个 datetime 
对 象 ， 它 的 时 刻 由 time_string 指 定 ， 利 用 format 字 符 串 参数 来 解 
析 。 详 细 格 式 参 见 表 15-1。 


15.6 多 线程 


为 了 引入 多 线程 的 概念 ， 让 我 们 来 看 一 个 例子 。 假 设 你 想 安 排 一 些 
代码 ， 在 一 段 延 迟 后 或 在 特定 时 间 运 行 。 可 以 在 程序 启动 时 添加 如 下 代 
人 码 : 








import time, datetime 


startTime = datetime.datetime(2029，16，31，6，6，0) 
while datetime.datetime.now() < startTime: 
time.sleep(1) 


print('Program now starting on Halloween 2629 ) 
--snip 


ee 


这 段 代 码 指定 2029 年 10 月 31 日 作为 开始 时 间 ， 不 断 调 用 
time.sleep(1)， 直 到 开始 时 间 。 在 等 待 tme.sleepO 的 循环 调用 完成 时 ， 程 
序 不 能 做 任何 事情 ， 它 只 是 坐 在 那里 ， 直 到 2029 年 万 圣 节 。 这 是 因为 
Python 程序 在 默认 情况 下 ， 只 有 一 个 执行 线程 。 


要 理解 什么 是 执行 线程 ， 就 要 回忆 第 2 章 关 于 控制 流 的 讨论 ， 当 时 
你 想象 程序 的 执行 就 像 把 手指 放 在 一 行 代码 上 ， 人 然后 移动 到 下 一 行 ， 或 
征 流 控制 语句 让 它 去 的 任何 地 方 。 单 线程 程序 只 有 一 个 “手指 ”。 但 多 线 
程 的 程序 有 多 个 “手指 ”。 每 个 “手指 ”仍然 移动 到 控制 流 语句 定义 的 下 一 
行 代码 ， 但 这 些 “ 手 指 ?可 以 在 程序 的 不 同 地方 ， 同 时 执行 不 同 的 代码 行 
《到 目前 为 止 ， 本 书 所 有 的 程序 一 直 是 单线 程 的 ) 。 


不 必 让 所 有 的 代码 等 待 ， 直 到 time.sleepO 函 数 完成 ， 你 可 以 使 用 
Python 的 threading 模 块 ， 在 单独 的 线程 中 执行 延迟 或 安排 的 代码 。 这 个 
单独 的 线程 将 因为 time.sleepO 调 用 而 暂停 。 同 时， 程序 可 以 在 原来 的 线 
程 中 做 其 他 工作 。 


要 得 到 单独 的 线程 ， 首 先 要 调用 threading.Thread0 函 数 ， 生 成 一 个 
Thread 对 象 。 在 新 的 文件 中 输入 以 下 代码 ， 并 保存 为 threadDemo.py: 





























import threading, time 
print('Start of program.') 


@ def takeANap(): 
time.sleep(5) 
print('Wake up!') 


@ threadObj = threading. Thread(target=takeANap) 
© threadObj.start() 


print('End of program. ' ) 





在 @ 行 ， 我 们 定义 了 一 个 函数 ,希望 用 于 新 线程 中 。 为 了 创建 一 个 
Thread 对 象 ， 我 们 调用 threading.Thread0， 并 传 入 关键 字 参 数 
target=takeANap@。 这 意味 着 我 们 要 在 新 线程 中 调用 的 函数 是 
takeANap()。 请 注意 ， 关 键 字 参数 是 target=takeANap， 而 不 是 
target=takeANap()。 这 是 因为 你 想 将 takeANap0 〇 函数 本 里 作为 参数 ， 而 
不 是 调用 takeANap()， 并 传 入 它 的 返回 值 。 


我 们 将 threading.Thread() 创 建 的 Thread 对 象 保存 在 threadObj 中 ， 然 
后 调用 threadObj.start() 合 ， 创 建新 的 线程 ， 并 开始 在 新 线程 中 执行 目标 
函数 。 如 果 运 行 该 程序 ， 输 出 将 像 这 样 : 








Start of program. 
End of program. 
Wake up! 








这 可 能 有 点 令 人 困惑 。 如 果 print(End of program.) 是 程序 的 最 后 一 
行 ， 你 可 能 会 认为 ， 它 应 该 是 最 后 打印 的 内 容 。Wake up! 在 它 后 面 是 因 
为 ， 当 threadObj.start0 被 调用 时 ，threadObj 的 目标 函数 运行 在 一 个 新 的 
执行 线程 中 。 将 它 看 成 是 第 二 根 “ 手 指 *”， 出 现在 takeANap0) 函 数 开始 
处 。 主 线程 继续 print(End of program.)。 同 时 ， 新 线程 已 执行 了 
time.sleep(5) 调 用 ， 和 暂停 5 秒 钟 。 之 后 它 从 5 秒 钟 小 睡 中 醒 来 ， 打 印 
J 'Wake up!'， 然 后 从 takeANap0 函 数 返 回 。 按 时 间 顺 序 ，"Wake up! 是 
程序 最 后 打印 的 内 容 。 


通常 ， 程 序 在 文件 中 最 后 一 行 代码 执行 后 终止 (或 调用 
sys.exit()) 。 但 threadDemo.py 有 两 个 线程 。 第 一 个 是 最 初 的 线程 ， 从 程 
序 开始 处 开始 ， 在 print(End of program.) 后 结束 。 第 二 个 线程 是 调用 
threadObj.startO 时 创建 的 ， 始 于 takeANap0 函 数 的 开始 处 ， 在 takeANap( 
返回 后 结束 。 


在 程序 的 所 有 线程 终止 之 前 ，Python 程 序 不 会 终止 。 在 运行 


threadDemo.py 时 ， 即 使 最 初 的 线程 已 经 终止 ， 第 二 个 线程 仍然 执行 
time.sleep(5) 调 用 。 


15.6.1 问 线 程 的 目标 函数 传递 参数 





























如 果 想 在 新 线程 中 运行 的 目标 函数 有 参数 ， 可 以 将 目标 函数 的 参数 
传 入 threading.Thread()。 例 如 ， 假 设想 在 自己 的 线程 中 运行 以 下 print0 调 
用 : 





>>> print('Cats', 'Dogs', 'Frogs', sep=" & ') 


Cats & Dogs & Frogs 








该 printO 调 用 有 3 个 常规 参数 : 'Cats'、'Dogs' 和 'Frogs'， 以 及 一 个 关 
键 字 参 数 : sep= ' &'。 常 规 参数 可 以 作为 一 个 列表 ， 传 递 给 
threading.Thread() 中 的 args 关 键 字 参数 。 关 键 字 参数 可 以 作为 一 个 字典 ， 
传递 给 threading.Thread() 中 的 kwargs 关 键 字 参数 。 


在 交互 式 环境 中 输入 以 下 代码 : 





>>> import threading 


>>> threadObj = threading.Thread(target=print, args=['Cats', 'Dogs', 'Frogs 


kwargs={'sep': ' & '}) 


>>> threadObj.start() 


Cats & Dogs & Frogs 





为 了 确保 参数 'Cats'、'Dogs' 和 'Frogs' 传 递 给 新 线程 中 的 print()， 我 们 
将 args=['Cats', 'Dogs', 'Frogs'] 传 入 threading.Thread()。 为 了 确保 关键 字 参 
数 sep=' & "传递 给 新 线程 中 的 print()， 我 们 将 kwargs=f{'sep': '& HEA 
threading. Thread(). 


threadObj.start() ii] HKA 42 — ARER FA printOrh AL, ESR 
入 'Cats'"、'Dogs' 和 'Frogs' 作 为 参数 ， 以 及 ' & ' 作 为 sep 关 键 字 参数 。 


下 面 创建 新 线程 调用 print() 的 方法 是 不 正确 的 : 





threadObj = threading.Thread(target=print('Cats', 'Dogs', 'Frogs', sep=' & 





这 行 代码 最 终 会 调用 print() 函 数 ， 将 它 的 返回 值 〈print0 的 返回 值 总 

是 无 ) 作 为 target 关 键 字 参数 。 它 没有 传递 print() 函 数 本 号。 如 果 要 问 新 

- o 函数 传递 参数 ， 就 使 用 threading.Thread0 函 数 的 args 和 kwargs 关 
FBR « 


15.6.2 并 发 问题 


可 以 轻松 地 创建 多 个 新 线程 ， 让 它们 同时 运行 。 但 多 线程 也 可 能 会 
导致 所 谓 的 并 发 问题 。 如 果 这 些 线程 同时 读 写 变量 ， 导 致 互相 干扰 ， 就 
会 发 生 并 发 问题 。 并 发 问题 可 能 很 难 一 致 地 重 现 ， 所 以 难以 调试 。 


多 线程 编程 本 号 就 是 一 个 广泛 的 主题 ， 超 出 了 本 书 的 范围 。 必 须 记 
住 的 是 : 为 了 避免 并 发 问题 ， 绝 不 让 多 个 线程 读 取 或 写 入 相同 的 变量 。 
当 创 建 一 个 新 的 Thread 对 象 时 ， 要 确保 其 目标 函数 只 使 用 该 函数 中 的 局 
部 变量 。 这 将 避免 程序 中 难以 调试 的 并 发 问题 。 
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程 的 初学 者 教程 。 


15.7 WH: 多 线程 XKCD 下 载 程序 


在 第 11 章 ， 你 编写 了 一 个 程序 ， 从 XKCD 网 站 下 载 所 有 的 XKCD 漫 
画 。 这 是 一 个 单线 程 程序 . 它 一 次 下 载 一 幅 漫 画 。 程 序 运 行 的 大 部 分 时 
间 ， 都 用 于 建立 网 络 连 接 来 开始 下 载 ， 以 及 将 下 载 的 图 像 写 入 硬盘 。 如 
果 你 有 宽带 因特网 连接 ， 单 线程 程序 并 没有 充分 利用 可 用 的 带宽 。 


多 线程 程序 中 有 一 些 线程 在 下 载 漫 画 ， 同 时 男 一 些 线程 在 建立 连 
接 ， 或 将 漫画 图 像 文 件 写 入 硬盘 。 和 它 更 有 效 地 使 用 mnternet 和 连接， 更 迅速 
地 下 载 这 些 漫画 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 
multidownloadXkcd.py。 你 将 修改 这 个 程序 ， 添 加 多 线程 。 经 过 全 面 修 
改 的 源 代码 可 从 http://nostarch.com/automatestuff/ 下 载 。 


第 1 步 : 修改 程序 以 使 用 函数 


该 程序 大 部 分 是 来 目 第 11 章 的 相同 下 载 代 码 ， 所 以 我 会 跳 过 
Requests 和 BeautifulSoup 代 码 的 解释 。 需 要 完成 的 主要 变更 是 导入 
threading 模 块 ， 并 定义 downloadXkcd() 函 数 ， 该 函数 接受 开始 和 结束 的 
漫画 编号 作为 参数 。 


例如 ， 调 用 downloadXkcd(140，280) 将 循环 执行 下 载 代 码 ， 下 载 漫 
男 http:/xkcd. com/140 、http://xkcd.com/141、http://xkcd.com/142 等 ， 直 
到 http://Xxkcd.com/279。 你 创建 的 每 个 线程 都 会 调用 downloadXkcd()， 并 
传 入 不 同 范围 的 漫画 进行 下 载 。 


将 下 面 的 代码 添加 到 multidownloadXkcd.py 程 序 中 : 





a 


























#! python3 
# multidownloadXkcd.py - Downloads XKCD comics using multiple threads. 


import requests, os, bs4, threading 
@ os.makedirs('xkcd', exist_ok=True) # store comics in ./xkcd 


@ def downloadXkcd(startComic, endComic): 
© for urlNumber in range(startComic, endComic): 
# Download the page. 


print('Downloading page http://xkcd.com/%s...' % (urlNumber) ) 
e res = requests.get('http://xkcd.com/%s' % (urlNumber) ) 
res.raise for_status() 


9 soup = bs4.BeautifulSoup(res.text) 


# Find the URL of the comic image. 
© comicElem = soup.select('#comic img') 
if comicElem == []: 
print('Could not find comic image.') 
else: 
o comicUrl = comicElem[@].get('src') 
# Download the image. 
print('Downloading image %s...' % (comicUr]l)) 
@ res = requests.get(comicUr1) 
res.raise for_status() 


# Save the image to ./xkcd. 
imageFile = open(os.path.join('xkcd', os.path.basename(comicU 
for chunk in res.iter_content(10@0e@6) : 
imageFile.write(chunk) 
imageFile.close() 


# TODO: Create and start the Thread objects. 
# TODO: Wait for all threads to end. 








导入 需要 的 模块 后 ，@ 行 创建 了 一 个 目录 来 保存 漫画 ， 并 开始 定义 
downloadxkcd0)@。 循 环 遍历 指定 范围 中 的 所 有 编写 合 ， 并 下 载 每 个 页 
面 @@。 用 Beautiful Soup 查 看 每 一 页 的 HTML@@， 找 到 漫画 图 像 @。 如 果 





页 面 上 没有 的 漫画 图 像 ， 就 打印 一 条 消息 。 否 则 ， 取 得 图 片 的 URL@， 
并 下 载 图 像 @。 最 后 ， 将 图 像 保存 到 我 们 创建 的 目录 中 。 


第 2 步 : 创建 并 启动 线程 
既然 已 经 定义 downloadXkcd()， 我 们 将 创建 多 个 线程 ， 每 个 线程 调 


用 downloadXkcd0， 从 XKCD 网 站 下 载 不 同 范 围 的 漫画 。 将 下 面 的 代码 
添加 到 multidownloadXkcd.py 中 ， 放 在 downloadXkcd() 函 数 定义 之 后 : 


#! python3 
# multidownloadXkcd.py - Downloads XKCD comics using multiple threads. 








--snip 


# Create and start the Thread objects. 


downloadThreads = [] # a list of all the Thread objects 


for i in range(®, 1400, 100): # loops 14 times, creates 14 threads 


downloadThread = threading. Thread(target=downloadXkcd, args=(i, i + 99) 


downloadThreads .append(downloadThread) 


downloadThread.start() 





首先 ， 我 们 创建 了 一 个 空 列表 downloadThreads， 该 列表 帮助 我 们 追 
踪 创 建 的 多 个 Thread 对 象 。 然 后 开始 for 循 环 。 在 每 次 循环 中 ， 我 们 利用 
threading.Thread0 创 建 一 个 Thread 对 象 ， 将 它 追加 到 列表 中 ， 并 调用 
start()， 开 始 在 新 线程 中 运行 downloadXkcd()。 因 为 for 循 环 将 变量 i 设置 
为 从 0 到 1400， 步 长 为 100， 所 以 在 第 一 次 迭代 时 为 0， 第 二 次 迭代 时 为 
100， 第 三 次 为 200， 以 此 类 推 。 因 为 我 们 将 args=(L, I+99) 传 递 给 
threading.Thread()， 所 以 在 第 一 次 从 代 时 ， 传 递 给 downloadXkcd0) 的 两 
个 参数 将 是 Oo 和 99， 第 二 次 迭代 是 100 和 199， 第 三 次 是 200 和 299， 以 次 
KHE. 


由 于 调用 了 Thread 对 象 的 start(0) 方 法 ， 新 的 线程 开始 运行 
downloadXkcd() 中 的 代码 ， 主 线程 将 继续 for 循 环 的 下 一 次 迭代 ， 创 造 下 
= 外 线程。 


第 3 步 : 等 每 所 有 线程 结 


主线 程 正常 执行 ， 同 时 我 们 创建 的 其 他 线程 下 载 漫画 。 但 是 假定 主 
线程 中 有 一 些 代 码 ， 你 希望 所 有 下 载 线程 完成 后 再 执行 。 调 用 Thread 对 
象 join(0) 方 法 将 阻塞 ， 直 到 该 线程 完成 。 利 用 一 个 for 循 环 ， 允 历 
downloadThreads 列 表 中 的 所 有 Thread 对 象 ， 主 线程 可 以 调用 其 他 每 个 线 
程 的 join0 方 法 。 将 以 下 代码 添加 到 程序 的 末尾 : 














#! python3 
# multidownloadXkcd.py - Downloads XKCD comics using multiple threads. 


--snip 


# Wait for all threads to end. 


for downloadThread in downloadThreads: 


downloadThread. join() 


print('Done.') 





所 有 的 join0 调 用 返回 后 ，'Done.' 字 符 串 才 会 打印 ， 如 果 一 个 Thread 





对 象 已 经 完成 ， 那 么 调用 它 的 join0 方 法 时 ， 该 方法 就 会 立即 返回 。 如 
果 想 扩展 这 个 程序 ， 添 加 一 些 代 码 ， 在 所 有 漫画 下 载 后 运行 ， 就 可 以 用 
新 的 代码 蔡 换 print(Done.)。 


15.8 从 Python 启动 其 他 程序 


利用 内 建 的 subprocess 模 块 中 的 Popen0 函 数 ，Python 程 序 可 以 启动 
计算 机 中 的 其 他 程序 (Popen() 函 数 名 中 的 P 表 示 process， 进 程 》”。 如 果 
你 打开 了 一 个 应 用 程序 的 多 个 实例 ， 每 个 实例 都 是 同一 个 程序 的 不 同 进 
程 。 例 如 ， 如 果 你 同时 打开 了 了 Web 浏览 右 的 多 个 窗口 ， 每 个 窗口 都 是 
We i 参见 图 15-1， 这 是 同时 打开 多 个 计算 器 进 
时 的 例子 
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图 15-1 相同 的 计算 器 程序 ， 六 个 正在 运行 的 进程 


每 个 进程 可 以 有 多 个 线程 。 不 像 线 程 ， 进 程 无 法 直接 读 写 男 一 个 进 
程 的 变量 。 如 果 你 认为 多 线程 程序 是 多 个 手指 在 退 踪 源 代码 ， 那 么 同一 
个 程序 打开 多 个 进程 就 像 有 一 个 朋友 拿 着 程序 源 代码 的 独立 副本 。 你 们 
都 独立 地 执行 相同 的 程序 。 


如 果 想 在 Python 肢 本 中 启动 一 个 外 部 程序 ， 束 将 该 程序 的 文件 名 传 
递 给 subprocess.Popen0 〈 在 Windows 中 ， 碳 键 点 击 该 应 用 程序 的 开始 荣 
单项 ， 然 后 选择 “属性 ”， 查 看 应 用 程序 的 文件 名 。 在 OS X 上 ， 按 住 Ctrl 
键 单 击 该 应 用 程序 并 选择 “显示 包 内 容 ”， 找 到 可 执行 文件 的 路 径 ) 。 
Popen0O 函 数 随后 将 立即 返回 。 请 记 住 ， 局 动 的 程序 和 你 的 Python 程序 不 











在 同一 线程 中 运行 。 
在 Windows 计 算 机 上 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import subprocess 


>>> subprocess.Popen('C:\\Windows\\System32\\calc.exe' ) 


< subprocess.Popen object at 0x0000000003055A58> 





在 Ubuntu Linux 上 ， 可 以 输入 以 下 代码 : 


>>> import subprocess 


>>> subprocess.Popen('/usr/bin/gnome-calculator') 


< subprocess.Popen object at 6x7f2bcf93b26> 





在 OS XX 上 ， 过 程 稍 有 不 同 。 参 见 15.8.5 节 “用 默认 应 用 程序 打开 文 
HE” 


返回 值 是 一 个 Popen 对 象 ， 它 有 两 个 有 用 的 方法 : poll() 和 wait()。 


可 以 认为 pol0 方 法 是 问 你 的 朋友 ， 她 是 否 执行 完毕 你 给 她 的 代 
码 。 如 果 这 个 进程 在 polO 调 用 时 仍 在 运行 ，poll0 方 法 就 返回 None。 如 
果 该 程序 已 经 终止 ， 它 会 返回 该 进程 的 整数 退出 代码 。 退 出 代码 用 于 说 
明 进 程 是 无 错 终止 〈 退 出 代码 为 0) ， 还 是 一 个 错误 导致 进程 终止 〈 退 
出 代码 非 零 ， 通 第 为 1， 但 可 能 根据 程序 而 不 同 ) 。 


wait() 方 法 就 像 是 等 着 你 的 朋友 执行 完 她 的 代码 ， 然 后 你 继续 执行 
你 的 代码 。wait() 方 法 将 阻塞 ， 直 到 启动 的 进程 终止 。 如 果 你 希望 你 的 
程序 暂停 ， 直 到 用 户 完成 与 其 他 程序 ， 这 非常 有 用 。waitO 的 返回 值 是 
进程 的 整数 退出 代码 。 


在 Windows 上 ， 在 交互 环境 中 输入 以 下 代码 。 请 注意 ， waitO 的 调 
用 将 阻塞 ， 直 到 退出 启动 的 计算 器 程序 。 




















@ >>> calcProc = subprocess.Popen( 'c:\\Windows\\System32\\calc.exe') 


@ >>> calcProc.poll() == None 


True 
© >>> calcProc.wait() 


0 
>>> calcProc.poll() 


ee 


这 里 ， 我 们 打开 了 计算 器 程序 @。 在 它 仍 在 运行 时 ， 我 们 检查 
poll0 是 否 返 回 None@。 它 应 该 返回 None， 因 为 该 进程 仍 在 运行 。 然 
后 ， 我 们 关闭 计算 嚣 程序， 并 对 已 终止 的 进程 调用 wait(0) 合 。wait0 和 
poll0 现 在 返回 09， 说 明 该 进程 终止 是 无 错 。 


15.8.1 H] Popen) RM STA% 


用 Popen0 创 建 进程 时 ， 可 以 向 进程 传递 命令 行 参数 。 要 做 到 这 一 
点 ， 问 Popen0) 传 递 一 个 列表 ， 作 为 唯一 的 参数 。 该 列表 中 的 第 一 个 字符 
串 是 要 启动 的 程序 的 可 执行 文件 名 ， 所 有 后 续 的 字符 串 将 是 该 程序 启动 
时 ， 传 递 给 该 程序 的 命令 行 参数 。 实 际 上 ， 这 个 列表 将 作为 被 启动 程序 
的 sys.argv 的 值 。 


大 多 数 具有 图 形 用 户 界面 (GUI) 的 应 用 程序 ， 不 像 基 于 命令 行 或 
基于 终端 的 程序 那样 尽 可 能 地 使 用 命令 行 参数 。 但 大 多 数 GUI 习 用 程序 
将 接受 一 个 参数 ， 表 示 应 用 程序 启动 时 立即 打开 的 文件 。 例 如 ， 如 果 你 
使 用 的 是 Windows， 创 建 一 个 简单 的 文本 文件 C:\hello.txt， 然 后 在 交互 
式 环 境 中 输入 以 下 代码 : 








>>> subprocess .Popen(['C:\\Windows\\notepad.exe', 'C:\\hello.txt']) 


< subprocess.Popen object at 0x00000000032DCEB8> 








这 不 仅 会 局 动 记事 本 应 用 程序 ， 也 会 让 它 立 即 打 开 C:hello.txt。 


15.8.2 Task Scheduler 、launchd 和 cron 


如 果 你 精通 计算 机 ， 可 能 知道 Windows 上 的 Task Scheduler, OS X 
上 的 launchd， 或 Linux 上 的 cron 调 度 程 序 。 这 些 工 具 文 档 齐 全 ， 而 且 可 
靠 ， 它 们 都 允许 你 安排 应 用 程序 在 特定 的 时 间 局 动 。 如 果 想 更 多 地 了 解 
它们 ， 可 以 在 http://nostarch. com/automatestuff/ 找到 教程 的 链接 。 


利用 操作 系统 内 置 的 调度 程序 ， 你 不 必 自 己 写 时 钟 检查 代码 来 安排 
你 的 程序 。 但 是 ， 如 果 只 需要 程序 稍 作 停顿 ， 承 用 time.sleepO 函 数 。 或 
者 不 使 用 操作 系统 的 调度 程序 ， 代 人 码 可 以 循环 直到 特定 的 日 斯 和 时 间 ， 
每 次 循环 时 调用 time.sleep(1)。 


15.8.3 用 Python 打 开 网 站 


Webbrowser.open() 疯 数 可 以 从 程序 启动 Web 浏 览 嚣 ， 打 开 指 定 的 网 
站 ， 而 不 是 用 subprocess.Popen0 打 开 浏 览 器 应 用 程序 。 详 细 内 容 参 见 第 
11 章 的 “项 目 : 利用 webbrowser 横 块 的 mapIt.py” 一 节 。 


15.8.4 运行 其 他 Python 脚本 


可 以 在 Python 中 启动 另 一 个 Python 脚本 ， 就 像 任何 其 他 的 应 用 程序 
一 样 。 只 需 向 Popen() 传 入 python.exe 可 执行 文件 ， 并 将 想 运 行 的 .py 脚本 
的 文件 名 作为 它 的 参数 。 例 如 ， 下 面 代码 将 运行 第 1 章 的 hello.py 脚 本 : 





>>> subprocess.Popen(['C:\\python34\\python.exe', "hello.py']) 


< subprocess.Popen object at 0x@00000000331CF28> 





向 Popen(0) 传 入 一 个 列表 ， 其 中 包含 Python 可 执行 文件 的 路 径 字符 
串 ， 以 及 脚本 文件 名 的 字符 串 。 如 果 要 启动 的 脚本 需要 命令 行 参数 ， 束 
将 它们 添加 列表 中 ， 放 在 脚本 文件 名 后 面 。 在 Windows 上 ，Python 可 执 
行文 件 的 路 径 是 C: \python34\ python.exe。 在 OS XE, 
是 /Library/Frameworks/Python.framework/ Versions/3.3/bin/python3。 在 


Linux E, #é/usr/bin/python3. 


不 同 于 将 Python 程序 导入 为 一 个 模块 ， 如 果 Python 程 序 局 动 了 另 一 
个 Python 程序 ， 两 者 将 在 独立 的 进程 中 运行 ， 不 能 分 享 彼此 的 变量 。 


15.8.5 用 默认 的 应 用 程序 打开 文件 


双击 计算 机 上 的 :txt 文件 ， 会 自动 司 动 与 .xt 文 件 扩展 名 关联 的 应 用 
程序 。 计 算 机 上 已 经 设置 了 一 些 这 样 的 文件 扩展 名 关联 。 利 用 Popen()， 
Python 也 可 以 用 这 种 方式 打开 文件 。 


每 个 操作 系统 都 有 一 个 程序 ， 其 行为 等 价 于 双击 文档 文件 来 打开 
它 。 在 Windows 上， 这 是 start 程 序 。 在 OS X 上 ， 这 是 open 程 序 。 在 
Ubuntu Linux 上， 这 是 see 程 序 。 在 交互 式 环境 中 输入 以 下 代码 ， 根 据 操 
作 系 统 ， 问 Popen() 传 入 'start'、'open' 或 'see': 


























>>> fileObj = open('hello.txt', 'w') 


>>> fileObj.write('Hello world!') 


12 
>>> fileObj.close() 


>>> import subprocess 


>>> subprocess.Popen(['start 


', "hello.txt'], shell=True) 





这 里 ， 我 们 将 Hello world! 写 入 一 个 新 的 hello.txt 文 件 。 然 后 调用 
Popen()， 传 入 一 个 列表 ， 其 中 包含 程序 名 称 ( 在 这 个 例子 中 ， 是 
Windows 上 的 'start) ， 以 及 文件 名 。 我 们 也 传 入 了 shell=True 关 键 字 参 
数 ， 这 只 在 Windows 上 需要 。 操 作 系 统 知 道 所 有 的 文件 关联 ， 能 弄 清楚 
应 该 启动 哪个 程序 ， 比 如 Notepad.exe， 来 处 理 hello.txt 文 件 。 


在 OS X 上 ，open 程 序 用 于 打开 文档 文件 和 程序 。 如 果 你 有 Mac， 在 
交互 式 环境 中 输入 以 下 代码 : 


>>> subprocess.Popen(['open', '/Applications/Calculator.app/']) 


< subprocess.Popen object at 0x10202ff98> 





计算 器 应 用 程序 应 该 会 打开 。 
Unix 
程序 精心 设计 ， 能 被 其 他 程序 启动 ， 这 样 的 程序 比 单独 使 用 它们 自己 的 代码 更 强大 。Unix 的 


哲学 是 一 组 由 UNIX 操 作 系 统 〈 现 代 的 Linux 和 OS X 也 是 基于 它 ) 的 程序 员 建立 的 软件 设计 原 
则 。 它 认为 : 编写 小 的 、 目 的 有 限 的 、 能 互 操作 的 程序 ， 胜 过 大 的 、 功 能 丰富 的 应 用 程序 。 

























































































较 小 的 程序 更 容易 理解 ， 通 过 能 够 互 操 作 ， 它 们 可 以 是 更 强大 的 应 用 程序 的 构建 块 。 智 
能 手机 应 用 程序 也 遵循 这 种 方式 。 如 果 你 的 餐厅 应 用 程序 需要 显示 一 问 晤 时 店 的 方位 ， 开 发 
者 不 必 重 新 发 明 轮 子 ， 编 写 自 己 的 地 图 代码 。 和 餐厅 应 用 程序 只 是 启动 一 个 地 图 应 用 程序 ， 同 
时 传 入 咖啡 店 的 地 址 ， 就 像 Python 代 码 调用 一 个 函数 ， 并 传 入 参数 一 样 。 


你 在 本 书 中 编写 的 Python 程序 大 多 符合 Unix 哲 学 ， 尤 其 是 在 一 个 重要 的 方面 : 它们 使 用 命 
令 行 参数 ， 而 不 是 input() 函 数 调用 。 如 果 程 序 需要 的 所 有 信息 都 可 以 事先 提供 ， 最 好 是 用 命令 
了 参数 传 入 这 些 信息 ， 而 不 是 等 待 用户 键入 它 。 这 样 ， 命 令 行 参 数 可 以 由 人 类 用 户 键入 ， 也 
可 以 由 另 一 个 程序 提供 。 这 种 互 操作 的 方式 ， 让 你 的 程序 可 以 作为 男 一 个 程序 的 部 分 而 复 


用 。 
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唯一 的 例外 是 ， 你 不 希望 口令 作为 命令 行 参 数 传 入 ， 因 为 命令 行 可 能 记录 它们 ， 作 为 命 
令 历 史 功 能 的 一 部 分 。 在 需要 输入 口令 时 ， 程 序 应 该 调用 inputO 函 数 。 

















在 https://en.wikipedia.org/wiki/Unix_philosophy/ ， 你 可 以 阅读 更 多 有 关 Unix 哲 学 的 内 容 


15.9 项 目 : 简单 的 倒计时 程序 


就 像 很 难 找到 一 个 简单 的 秒表 应 用 程序 一 样 ， 也 很 难 找到 一 
的 倒计时 程序 。 让 我 们 来 写 一 个 倒计时 程序 ， 在 倒计时 结束 时 报警 


忆 的 来 说 ， 程 序 要 做 到 |: 


e 从 60 倒 数 。 
e 倒数 至 0 时 播放 声音 文件 (alarm.wav) 。 


这 意味 着 代码 将 需要 做 到 以 下 几 点 : 


。 在 显示 倒计时 的 每 个 数字 之 间 ， 调 用 time.sleepO 和 暂停 一 秒 。 
。 调用 subprocess.Popen0， 用 默认 的 应 用 程序 播放 声音 文件 。 


打开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 countdown.py。 


倒计时 


这 个 程序 需要 time 模 块 的 time.sleep() 函 数 ，subprocess 模 块 的 
subprocess. Popen() 函 数 。 输 入 以 下 代码 并 保存 为 countdown.py: 





#! python3 
# countdown.py - A simple countdown script. 


import time, subprocess 


@ timeLeft = 60 
while timeLeft > 0: 


@ print(timeLeft, end='') 
© time.sleep(1) 
@ timeLeft = timeLeft - 1 


# TODO: At the end of the countdown, play a sound file. 





导入 time 和 subprocess 后 ， 创 建 变 量 timeleft， 保 存 倒 计时 剩 下 的 秒 





数 @。 它 从 60 开 始 ， 或 者 可 以 根据 需要 更 改 这 里 的 值 ， 其 至 通过 命令 行 
参数 设置 它 。 

在 while 循 环 中 ， 显 示 剩 余 次 数 @@， 暂 停 一 秒 钟 @， 再 减少 timeleft 
变量 的 值 候 ， 然 后 循环 再 次 开始 。 只 要 timeleft 大 于 0， 循 环 就 继续 。 在 
这 之 后 ， 倒 计时 就 结束 了 。 

第 2 步 : 播放 声音 文件 

虽然 有 第 三 方 模块 ， 播 放 各 种 声音 文件 ， 但 快速 而 简单 的 方法 ， 征 
局 动用 户 使 用 的 任何 播放 声音 文件 的 应 用 程序 。 操 作 系 统 通过 .wav 文 件 
扩展 名 ， 会 弄 清楚 应 该 启动 哪个 应 用 程序 来 播放 该 文件 。 这 个 .wav 文 件 
很 容易 变 成 其 他 声音 文件 格式 ， 如 .mp3 或 .ogg。 

可 以 使 用 计算 机 上 的 任何 声音 文件 ， 在 倒计时 结束 播放 ， 也 可 以 从 


http://nostarch. com/automatestuff/ F #¥alarm.wav 。 


在 程序 中 添加 以 下 代码 : 








#! python3 
# countdown.py - A simple countdown script. 


import time, subprocess 


--snip 


# At the end of the countdown, play a sound file. 


subprocess.Popen(['start', ‘alarm.wav'], shell=True) 





while 循 环 结束 后 ，alarm.wav〔 或 你 选择 的 声音 文件 ) 将 播放 ， 通 
知 用 户 倒计时 结束 。 在 Windows 上 ， 要 确保 传 入 Popen0 的 列表 中 包 
含 'start， 并 传 入 关键 字 参 数 shell=True。 在 OS X 上 ， 传 入 'open'， 而 不 


是 'start'， 并 去 掉 shell=True。 











除了 播放 声音 文件 之 外 ， 你 可 以 在 一 个 文本 文件 中 保存 一 条 消息 ， 
例如 Break time is over!。 然 后 在 倒计时 结束 时 用 Popen() 打 开 它 。 这 实际 
上 创建 了 一 个 带 消息 的 弹出 窗口 。 或 者 你 可 以 在 倒计时 结束 时 ， 用 
Webbrowser.open() 函 数 打开 特定 网 站 。 不 像 在 网 上 找到 的 一 些 免 费 倒 计 
时 应 用 程序 ， 你 自己 的 倒计时 程序 的 警报 可 以 是 任何 你 希望 的 方式 ! 


第 3 步 : 类 似 程序 的 想法 


倒计时 是 简单 的 延 时 ， 然 后 继续 执行 程序 。 这 也 可 以 用 于 其 他 应 用 
程序 和 功能 ， 诸 如 : 


。 利 用 time.sleepO 给 用 户 一 个 机 会 ， 按 下 Ctrl-C 取 消 的 操作 ， 例 如 删 
除 文件 。 你 的 程序 可 以 打印 “Press Ctrl-C to cancel”， 然 后 用 try 和 
except 语 句 处 理 所 有 KeyboardInterrupt 异 常 。 

。 对 于 长 期 的 倒计时 ， 可 以 用 timedelta 对 象 来 测量 直到 未 来 某 个 时 间 
A CEA? 周年 纪念 ? ) 的 天 、 时 、 分 和 秒 数 。 








15.10 小 结 


对 于 许多 编程 语言 ， 包 括 Python，Unix 纪 元 〈1970 年 1 月 1 日 午夜 ， 
UTC) 是 一 个 标准 的 参考 时 间 。 虽 然 time.time0 函 数 模块 返回 一 个 Unix 
纪元 时 间 惟 《也 就 是 自 Unix 纪 元 以 来 的 秒 数 的 浮 点 值 ) ， 但 datetime 模 
块 更 适合 执行 日 期 计算 、 格 式 化 和 解析 日 期 信息 的 字符 串 。 


time.sleep() K BK HAZE CBN AIT) 若干 秒 。 它 可 以 用 于 在 程序 中 
BT TAMIR AE ACERS Fe ERE EY Ta JA, 
http://nostarch.com/automatestuff/ 上 的 指南 可 以 告诉 你 如 何 使 用 操作 系统 
己 经 提供 的 调度 程序 。 


threading 模块 用 于 创建 多 个 线程 ， 如 果 需 要 下 载 多 个 文件 或 同时 执 
行 其 他 任务 ， 这 非常 有 用 。 但 是 要 确保 线程 只 读 写 局 部 变量 ， 人 否则 可 能 
会 遇 到 并 发 问题 。 


最 后 ，Python 程 序 可 以 用 subprocess.Popen0 函 数 ， 启 动 其 他 应 用 程 
序 。 命 令 行 参数 可 以 传递 给 Popen0 调 用 ， 用 该 应 用 程序 打开 特定 的 文 
档 。 另 外 ， 也 可 以 用 Popen0O 有 局 动 start、open 或 see 程 序 ， 利 用 计算 机 的 文 
件 关 联 ， 自 动 弄 清楚 用 来 打开 文件 的 应 用 程序 。 通 过 利用 计算 机 上 的 其 
他 应 用 程序 ，Python 程 序 可 以 利用 它们 的 能 力 ， 满 足 你 的 自动 化 需求 。 




















15.11 3 
1. 什么 是 Unix 纪 元 ? 
2. 什么 函数 返回 自 Unix 纪 元 以 来 的 秒 数 ? 
3. 如 何 让 程序 刚好 暂停 5 秒 ? 
4. round() 函 数 返 回 什么 ? 





5. datetime 对 象 和 timedelta 对 象 之 间 的 区 别 是 什么 ? 


假设 你 有 一 个 函数 名 为 spam()。 如 何在 一 个 独立 的 线程 中 调用 
该 函数 并 运行 其 中 的 代码 ? 


7. 为 了 避免 多 线程 的 并 发 问题 ， 应 该 怎样 做 ? 


8. 如 何 让 Python 程 序 运 行 <em>C</em>:\ <em>Windows</em>\ 
<em>System32</em> 文 件 夹 中 的 calc.exe 程 序 ? 


15.12 SK ERIN H 
作为 实践 ， 编 程 完 成 下 列 任务 。 
15.12.1 美化 的 秒表 


扩展 本 章 的 秒表 项 目 ， 让 它 利用 rjust0 和 jjustO 字 符 串 方法 来 “ 关 
化 ”的 输出 。《〈 这 些 方法 在 第 6 草 中 介绍 过 ) 。 输 出 不 是 像 这 样 : 








: 3.56 (3.56) 
: 8.63 (5.07) 
: 17.68 (9.05) 
: 19.11 (1.43) 





… 而 是 像 这 样 : 


Lap 
Lap 
Lap 
Lap 


1; 3.56 ( 3.56) 
2: 8.63 ( 5.07) 
3: 17.68 ( 9.05) 
4: 


# 
# 
# 
# 19.11 ( 1.43) 





请 注意 ， 对 于 lapNum、lapTime 和 totalTime 等 整 型 和 浮 点 型 变量 ， 
你 需要 字符 串 版 本 ， 以 便 对 它们 调用 字符 串 方 法 。 接 下 来 ， 利 用 第 6 章 
中 介绍 的 pyperdlip 模 块 ， 将 文本 输出 复制 到 剪贴 板 ， 以 便 用 户 可 以 将 输 
出 快速 粘贴 到 一 个 文本 文件 或 电子 邮件 中 。 


15.12.2 计划 的 Web 漫 画 下 载 


编写 一 个 程序 ， 检 查 几 个 Web 漫 画 的 网 站 ， 如 果 自 该 程序 上 次 访问 
DR, mA, MAB FR. BERANE REA (Windows EKS 
Task Scheduler, OS X 上 的 launchd， 以 及 Linux 上 的 cron) 可 以 每 天 运行 
你 的 Python 程序 一 次 。Python 程 序 本 身 可 以 下 载 漫 画 ， 然 后 将 它 复 制 到 
更 面 上 ， 这 样 很 容易 找到 。 你 就 不 必 自 己 碍 看 网 站 是 否 有 更 新 《在 
http://nostarch.com/automatestuff/ 上 有 一 份 Web 漫 画 的 列表 ) 。 

















第 16 章 ”发 送 电子 邮件 和 短信 


检查 和 答复 电子 邮件 会 占用 大 量 的 时 间 。 当 然 ， 你 不 能 只 写 一 个 程 
序 来 处 理 所 有 电子 邮件 ， 因 为 每 个 消息 都 需要 有 上 自己 的 回应 。 但 是 ， 一 
eae 电子 邮件 的 程序 ， 就 可 以 目 动 化 大 量 与 电子 邮件 相 
天 的 任务 


例如 ， 也 许 你 有 一 个 电子 表格 ， 包 含 许多 客户 记录 ， 和 希望 根据 他 们 
的 年 龄 和 位 置信 息 ， 同 每 个 客户 发 送 不 同 格式 的 邮件 。 商 业 软 件 可 能 
法 做 这 一 点 。 好 在 ， 可 以 编写 目 己 的 程序 来 发 送 这 些 电 子 邮件 ， 节 省 了 
大 量 复制 和 粘贴 电子 邮件 的 时 间 。 


也 可 以 编程 发 送 电 子 邮 件 和 短信 ， 即 使 你 远离 计算 机 时 ， 也 能 通知 
你 。 如 采 要 目 动 化 的 任务 需要 执行 几 个 小 时 ， 你 不 希望 每 过 几 分钟 就 回 
到 计算 机 和 旁边， 检查 程序 的 状态 。 相 反 ， 程 序 可 以 在 完成 时 问 手 机 发 短 
信 ， 让 你 在 离开 计算 机 时 ， 能 专注 于 更 重要 的 事情 。 














16.1 SMTP 


正如 HTTP 是 计算 机 用 来 通过 因特网 发 送 网 页 的 协议 ， 简 单 邮件 传 
输 协 议 〈SMTP ) 是 用 于 发 送 电 子 邮件 的 协议 。SMTP 规定 电子 邮件 应 
该 如 何 格式 化 、 加 密 、 在 邮件 服务 器 之 间 传 递 ， 以 及 在 你 点 击发 送 后 ， 
计算 机 要 处 理 的 所 有 其 他 细节 。 但 是 ， 你 并 不 需要 知道 这 些 技术 细节 ， 
为 Python 的 smtplib 模 块 将 它们 简化 成 几 个 函数 。 


SMTP 只 负责 向 别人 发 送 电子 邮件 。 另 一 个 协议 ， 名 为 IMAP， 负 责 
取 回 发 送 给 你 的 电子 邮件 ， 在 16.3 节 “IMAP” 中 介绍 。 


16.2 发 送 电子 邮件 


你 可 能 对 发 送 电子 邮件 很 熟悉 ， 通 过 Outlook、Thunderbird 或 某 个 
网 站 ， 如 Gmail 或 雅虎 邮箱 。 遗 憾 的 是 ，Python 没 有 像 这 些 服务 一 样 提 
供 一 个 漂亮 的 图 形 用 户 界 面 。 作 为 蔡 代 ， 你 调用 函数 来 执行 SMTP 的 每 
个 重要 步骤 ， 驶 像 下 面 的 交互 式 环境 的 例子 。 





不 要 在 IDLE 中 输入 这 个 例子 ， 因 为 smtp.example.com、bob@example.com、MY_ 
SECRET_PASSWORD 和 alice@example.com 只 是 占 位 符 。 这 段 代码 仅仅 勾勒 出 Python 发 送 电 子 
b 件 的 过 程 。 
































>>> import smtplib 


>>> smtpObj = smtplib.SMTP('smtp.example.com', 587) 


>>> smtpObj.ehlo() 


(258, b'mx.example.com at your service, [216.172.148.131]\nSIZE 35882577\ 
nN8BITMIME \nSTARTTLS \nENHANCEDSTATUSCODES \nCHUNKING' ) 
>>> smtpObj.starttls() 


(220, b'2.0.0 Ready to start TLS') 


>>> smtpObj.login('bob@example.com', 'MY_SECRET_PASSWORD 


(235, b'2.7.@ Accepted’ ) 
>>> smtpObj.sendmail('bob@example.com', ‘alice@example.com', ‘Subject: So 


long.\nDear Alice, so long and thanks for all the fish. Sincerely, Bob') 


{} 
>>> smtpObj.quit() 


(221, b'2.0.@ closing connection ko10sm23097611pbd.52 - gsmtp') 
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接 并 登录 到 SMTP 服 务 器 ， 发 送 电子 邮件 ， 并 从 服务 器 断 开 连接 。 
16.2.1 连接 到 SMTP 服 务 器 


如 果 你 曾 设置 了 Thunderbird、Outlook 或 其 他 程序 ， 连 接 到 你 的 电 
子 邮件 账户 ， 你 可 能 熟悉 配置 SMTP 服 务 器 和 端口 。 这 些 设置 因 电 子 邮 
件 提供 商 而 不 同 ， 但 在 网 上 搜索 “< 你 的 提供 两 > SMTP 设 置 "， 应 该 能 找 
到 相应 的 服务 器 和 端口 。 


SMTP 服 务 器 的 域名 通常 是 电子 邮件 提供 商 的 域名 ， 前 面 加 上 
SMTP。 例 如 ，Gmail 的 SMTP 服务 器 是 smtp.gmail.com。 表 16-1 列 出 了 
一 些 常见 的 电子 邮件 提供 商 及 其 SMTP 服 务 器 (端口 是 一 个 整数 值 ， 几 
乎 总 是 587， 该 端口 由 命令 加 密 标 准 TLS 使 用 ) 。 


表 16-1 电子 邮件 提供 商 及 其 SMTP 服 务 器 


提供 商 SMTP 服 务 器 域名 























Gmail smtp.gmail.com 


Outlook.com/Hotmail.com smtp-mail.outlook.com 
Yahoo Mail smtp.mail.yahoo.com 


smtp.comcast.net 
smtp.verizon.net (port 465) 


得 到 电子 邮件 提供 商 的 域名 和 端口 信息 后 ， 调 用 smtplib.SMTPO 创 
建 一 个 SMTP 对 象 ， 传 入 域名 作为 一 个 字符 串 参 数 ， 传 入 端口 作为 整数 
参数 。SMTP 对 象 表示 与 SMTP 邮 件 服务 器 的 连接 ， 它 有 一 些 发 送 电子 
邮件 的 方法 。 例 如 ， 下 面 的 调用 创建 了 一 个 SMTP 对 象 ， 连 接 到 Gmail: 





>>> smtpObj = smtplib.SMTP('smtp.gmail.com', 587) 


>>> type(smtpObj) 


< class 'smtplib.SMTP'> 





输入 type(smtpObj) 表 明 ，smtpObj 中 保存 了 一 个 SMTP 对 象 。 你 需要 
这 个 SMTP 对 象 ， 以 便 调用 它 的 方法 ， 登 录 并 发 送 电 子 邮 件 。 如 果 


smtplib.SMTPO 调 用 不 成 功 ， 你 的 SMTP 服 务 器 可 能 不 支持 TLS 端 口 
587。 在 这 种 情况 下 ， 你 需要 利用 smtplib.SMTP_SSL() 和 465 端 口 ， 来 创 
建 SMTP 对 象 。 


>>> smtpObj = smtplib.SMTP_SSL('smtp.gmail.com', 465) 





ae 


YES 





如 果 没 有 连接 到 因特网 ，Python 将 抛 出 socket.gaierror: [Errno 11004] getaddrinfo failed 或 类 似 的 
Bat 
FF IF o 





对 于 你 的 程序 ，TLS 和 SSL 之 间 的 区 别 并 不 重要 。 只 需要 知道 你 的 
SMTP 服 务 器 使 用 哪 种 加 密 标 准 ， 这 样 就 知道 如 何 连 接 它 。 在 接 下 来 的 
所 有 交互 式 环境 示例 中 ，smtpObj 变 量 将 包含 smtplib.SMTP() 或 
smtplib.SMTP_SSLO 函 数 返 回 的 SMTP 对 象 。 








16.2.2 发 送 SMTP 的 “Hello” 消 息 


得 到 SMTP 对 象 后 ， 调 用 它 的 名 字 古 怪 的 EHLO0O 方 法 ， 同 SMTP 电 
子 邮件 服务 器 “打招呼 ”>。 这 种 问候 是 SMTP 中 的 第 一 步 ， 对 于 建立 到 服 
务 器 的 连接 是 很 重要 的 。 你 不 需要 知道 这 些 协议 的 细节 。 只 要 确保 得 到 
SMTP 对 象 后 ， 第 一 件 事 就 是 调用 ehlo(0) 方 法 ， 否 则 以 后 的 方法 调用 会 导 
致 错 误 。 下 面 是 一 个 ehlo0 调 用 和 返回 值 的 例子 : 








>>> smtpObj.ehlo() 


(258, b'mx.google.com at your service, [216.172.148.131]\nSIZE 35882577\ 
n8BITMIME\nSTARTTLS\nENHANCEDSTATUSCODES\nCHUNKING' ) 


| 


如 果 在 返回 的 元 组 中 ， 第 一 项 是 整数 250 “(SMTP 中“ 成功 ”的 代 
码 ) ， 则 问候 成 功 了 。 


16.2.3 开始 TLS 加 密 

如 果 要 连接 到 SMTP 服 务 器 的 587 端 口 〈 即 使 用 TLS 加 密 ) ， 接 下 来 
需要 调用 starttls0) 方 法 。 这 是 为 连接 实现 加 密 必 须 的 步 又。 如果 要 连接 
到 465 端 口 〈 使 用 SSL) ， 加 密 已 经 设置 好 了 ， 你 应 该 跳 过 这 一 步 


下 面 是 starttls0 方 法 调用 的 例子 ; 


>>> smtpObj.starttls() 


(220, b'2.0.@ Ready to start TLS') 





starttls() 让 SMTP 连 接 处 于 TLS 模 式 。 返 回 值 220 告 诉 你 ， 该 服务 器 
已 准备 就 绪 。 


16.2.4 登录 到 SMTP 服 务 器 


到 SMTP 服 务 器 的 加 密 连 接 建 立 后 ， 可 以 调用 login0 方 法 ， 用 你 的 
用 户 名 〈 通 第 是 你 的 电子 邮件 地 址 ， 和 电子 邮件 密码 登录 。 





>>> smtpObj.login('my_email_address@gmail.com 


", "MY_SECRET_PASSWORD 


(235, b'2.7.0 Accepted ) 





传 入 电子 邮件 地 址 字符 串 作为 第 一 个 参数 ， 密 码 字 符 串 作为 第 二 个 
参数 。 返 回 值 235 表 示 认 证 成 功 。 如 果 密 码 不 正确 ，Python 会 抛 出 
smtplib. SMTPAuthenticationError 异 常 。 


将 密码 放 在 源 代码 中 要 当心 。 如 果 有 人 复制 了 你 的 程序 ， 他 们 束 能 
访问 你 的 电子 邮件 账户 ! 调用 input0)， 让 用 户 输 入 密码 是 一 个 好 主意 。 
每 次 运行 程序 时 输入 密码 可 能 不 方便 ， 但 这 种 方法 不 会 在 未 加 密 的 文件 
中 留 下 你 的 密码 ， 黑 客 或 笔记 本 电脑 禄 贼 不 会 轻易 地 得 到 它 。 


16.2.5 发 送 电子 邮件 


登录 到 电子 邮件 提供 商 的 SMTP 服 务 器 后 ， 可 以 调用 的 sendmail(0) 方 
法 来 发 送 电子 邮件 。sendmail0 方 法 调用 看 起 来 像 这 样 : 








>>> smtpObj.sendmail('my_email_address@gmail.com 


", 'recipient@exampLe.com 


"Subject: So long.\nDear Alice, so long and thanks for all the fish. Sincer 


Bob' ) 





sendmail() 方 法 需要 三 个 参数 。 


。 你 的 电子 邮件 地 址 字符 串 (电子 邮件 的 “from” 地 址 〉。 

e 收 件 人 的 电子 邮件 地 址 字符 串 ， 或 多 个 收 件 人 的 字符 串 列 表 〈 作 
为 “to” 地 址 ) 。 

e 电子 邮件 正文 字符 串 。 


电子 邮件 正文 字符 串 必 须 以 'Subject: mn 开头 ， 作 为 电子 邮件 的 主题 
行 。\ 换行 符 将 主题 行 与 电子 邮件 的 正文 分 开 。 


sendmail() 的 返回 值 是 一 个 字典 。 对 于 电子 邮件 传送 失败 的 每 个 收 
件 人 ， 该 字典 中 会 有 一 个 键 值 对 。 空 的 字典 意味 着 对 所 有 收 件 人 已 成 功 
发 送 电子 邮件 。 


Gmail 必用 程序 专用 密码 
Gmail 有 针对 谷歌 账户 的 附加 安全 功能 ， 称 为 应 用 程序 专用 密码 。 如 果 当 你 的 程序 试图 登录 
H 


时 ， 收 到 * 需 要 应 用 程序 专用 密码 ”的 错误 信息 ， 就 必须 在 Python 脚本 设置 这 样 一 个 密码 。 有 具体 
如 何 设置 谷歌 账户 的 应 用 程序 专用 密码 ， 参 见 http://nostarch.com/automatestuff/ 。 


16.2.6 从 SMTP 服 务 器 断 开 
















































































确保 在 完成 发 送 电子 邮件 时 ， 调 用 quitO 方 法 。 这 让 程序 从 SMTP 服 
Fat WTF o 


>>> smtpObj.quit() 


(221, b'2.0.@ closing connection ko10sm23097611pbd.52 - gsmtp') 





返回 值 221 表 示 会 话 结束 。 


要 复习 连接 和 登录 服务 器 、 发 送 电子 邮件 和 上 断 开 的 所 有 步骤 ， 请 参 
阅 16.2 节 “发 送 电子 邮件 ”。 


16.3 IMAP 


正如 SMTP 是 用 于 发 送 电子 邮件 的 协议 ， 因 特 网 消 轧 访问 协议 
CMAP) 规定 了 如 何 与 电子 邮件 服务 提供 商 的 服务 器 通信 ， 取 回 发 送 
到 你 的 电子 邮件 地 址 的 电子 邮件 。Python 带 有 一 个 imaplib 模 块 ， 但 实际 
上 第 三 方 的 imapclient 模 块 更 易 用 。 本 章 介 绍 了 如 何 使 用 [IMAPClient， 完 
整 的 文档 在 http://imapclient.readthedocs.org/ 。 


imapclient 模 块 从 IMAP 服 务 器 下 载 电 子 邮 件 ， 格 式 相当 复杂 。 你 很 
可 能 布 望 将 它们 从 这 种 格式 转换 成 们 单 的 字符 串 。pyzmail 模 块 蔡 你 完 
成 解析 这 些 邮 件 的 辛苦 工作 。 在 http://www.magiksys.net/pyzmail/ 可 以 找 
到 PyzMail 的 完整 文档 。 

从 终端 窗口 安装 imapclient 和 pyzmail。 附 录 A 包 含 了 如 何 安 装 第 三 方 
模块 的 步骤。 


16.4 用 IMAP 获 取 和 删除 电子 邮件 
在 Python 中 ， 查 找 和 获取 电子 邮件 是 一 个 多 步骤 的 过 程 ， 需 要 第 三 





方 模块 imapclient 和 pyzmail。 作 为 概述 ， 这 里 有 一 个 完整 的 例子 ， 包 括 
ee 搜索 电子 邮件 ， 获 取 它 们 ， 然 后 从 中 提取 电子 邮 
和 文本。 





>>> import imapclient 


>>> imapObj = imapclient.IMAPClient('imap.gmail.com', ssl=True) 


>>> imapObj.login('my_email_address@gmail.com 


", "MY_SECRET_PASSWORD 


"my_email_address@gmail.com Jane Doe authenticated (Success) ' 


>>> imapObj.select_folder('INBOX', readonly=True) 


>>> UIDs = imapObj.search(['SINCE @5-Jul-2014']) 


>>> UIDs 


[40032, 40033, 40034, 40035, 40036, 40037, 40038, 40039, 40040, 40041] 
>>> rawMessages = imapObj.fetch([40041], ['BODY[]', 'FLAGS']) 


>>> import pyzmail 


>>> message = pyzmail.PyzMessage.factory(rawMessages|[40041][ 'BODY[]']) 


>>> message.get_subject() 


"Hello!' 
>>> message.get_addresses('from' ) 


[('Edward Snowden', ‘esnowden@nsa.gov' ) ] 
>>> message.get_addresses('to') 


[(Jane Doe', 'jdoe@example.com' ) ] 
>>> message.get_addresses('cc') 


[] 


>>> message.get_addresses('bcc') 


[] 


>>> message.text_part != None 


True 
>>> message.text_part.get_payload().decode(message.text_part.charset) 


"Follow the money.\r\n\r\n-Ed\r\n' 
>>> message.html_part != None 


True 
>>> message. html_part.get_payload().decode(message.html_part.charset) 


"< div dir="1tr">< div>So long, and thanks for all the fish!< br>< br>< /di 
Al< br>< /div>\r\n' 
>>> imapObj.logout() 


pO 


你 不 必 记 住 这 些 步骤 。 在 详细 介绍 每 一 步 之 后 ， 你 可 以 回来 看 这 个 
概述 ， 加 强 记忆 。 


16.4.1 连接 到 IMAP 服 务 器 


就 像 你 需要 一 个 SMTP 对 象 连接 到 SMTP 服 务 器 并 发 送 电子 邮件 一 
样 ， 你 需要 一 个 IMAPClient 对 象 ， 连 接 到 IMAP 服 务 器 并 接收 电子 邮 
件 。 首 先 ， 你 需要 电子 邮件 服务 提供 两 的 IMAP 服 务 器 域名 。 这 和 SMTP 
Le 2 不 同 。 表 16-2 列 出 了 几 个 流行 的 电子 邮件 服务 提供 商 的 
IMAP D 





表 16-2 电子 邮件 提供 商 及 其 IMAP 服 务 器 


AT&T imap.mail.att.net 





得 到 IMAP 服 务 器 域名 后 ， 调 用 imapclient.IMAPClientO 函 数 ， 创 建 
一 个 IMAPClient 对 象 。 大 多 数 电 子 邮件 提供 商 要 求 SSL 加 密 ， 传 入 SSL= 
ee 在 交互 式 环境 中 输入 以 下 代码 (使 用 你 的 提供 商 的 
ia ) : 


>>> import imapclient 


>>> imapObj = imapclient.IMAPClient('imap.gmail.com', ssl=True) 





在 接 下 来 的 小 节 里 所 有 交互 式 环境 的 例子 中 ，imapObj 变 量 将 包含 
imapclient.IMAPClientO 函 数 返 回 的 IMAPClient 对 象 。 在 这 里 ， 客 户 端 是 
连接 到 服务 器 的 对 象 。 


16.4.2 登录 到 IMAP 服 务 器 


取得 IMAPClient 对 象 后 ， 调 用 它 的 login0) 方 法 ， 传 入 用 户 名 (这 通 
常 是 你 的 电子 邮件 地 址 ) 和 密码 字符 串 。 





>>> imapObj.login('my_email_address@gmail.com 


", "MY_SECRET_PASSWORD 


"my_email_address@gmail.com Jane Doe authenticated (Success) ' 


| 


要 记 住 ， 永 远 不 要 直接 在 代码 中 写 入 密码 ! 应 该 让 程序 从 input() 接 
受 输入 的 密码 。 


如 果 IMAP 服 务 器 拒绝 用 户 名 /密码 的 组 合 ，Python 会 抛 出 
imaplib.error 异 常 。 对 于 Gmail 账户 ， 你 可 能 需要 使 用 应 用 程序 专用 的 密 
码 。 详 细 信 息 请 参阅 16.2.5 节 中 的 “Gmail 应 用 程序 专用 密码 ”。 








16.4.3 搜索 电子 邮件 

登录 后 ， 实 际 获取 你 感 兴趣 的 电子 邮件 分 为 两 步 。 首 先 ， 必 须 选 择 
要 搜索 的 文件 来 。 然 后 ， 必 须 调用 IMAPClient 对 象 的 search() 方 法 ， 传 入 
IMAP 搜 索 关 键 词 字符 串 。 
16.4.4 选择 文件 夹 





几乎 每 个 账户 默认 都 有 一 个 INBOX 文 件 夹 ， 但 也 可 以 调用 
IMAPClient 对 象 的 list_folders() 方 法 ， 获 取 文 件 夹 列 表 。 这 将 返回 一 个 元 
组 的 列表 。 每 个 元 组 包含 一 个 文件 夹 的 信息 。 输 入 以 下 代码 ， 继 续 交 互 
式 环 境 的 例子 : 











>>> import pprint 


>>> pprint.pprint(imapObj.list_folders()) 


[(C('\\HasNoChildren',), '/', 'Drafts'), 
(('\\HasNoChildren',), '/', ‘Filler'), 
(('\\HasNoChildren',), '/', ‘INBOX'), 
(('\\HasNoChildren',), '/', ‘Sent'), 


--snip 


(('\\HasNoChildren', '\\Flagged'), '/', '[Gmail]/Starred'), 
(('\\HasNoChildren', '\\Trash'), '/', '[Gmail]/Trash')] 





如 果 你 有 一 个 Gmail 账户 ， 这 就 是 输出 可 能 的 样子 《Gmail 将 文件 夹 
称 为 label， 但 它们 的 工作 方式 与 文件 夹 相 同 ) 。 每 个 元 组 的 三 个 值 ， 例 
如 ((\HasNoChildren',), '/', INBOX'")， 解 释 如 下 : 


© 该 文件 夹 的 标志 的 元 组 (这 些 标志 代表 a 到底 是 什么 超出 了 本 书 的 讨 
论 范 围 ， 你 可 以 放心 地 忽略 该 字段 〉。 

。 名 称 字符 串 中 用 于 分 隔 父 文件 夹 和 子 文件 夹 的 分 隔 符 。 

。 该 文件 夹 的 全 名 。 


要 选择 一 个 文件 夹 进行 搜索 ， 束 调用 IMAPClient 对 象 的 
select_folder() 方 法 ， 传 入 该 文件 夹 的 名 称 字 符 串 。 








>>> imapObj.select_folder('INBOX', readonly=True) 








可 以 忽略 select_folder0 的 返回 值 。 如 果 所 选 文 件 夹 不 存在 ，Python 


AHi H imaplib.error t% © 


readonly=True 关 键 字 参数 可 以 防止 你 在 随后 的 方法 调用 中 ， 不 小 心 
更 改 或 删除 该 文件 夹 中 的 任何 电子 邮件 。 除 非 你 想 删 除 的 电子 邮件 ， 否 


则 将 readonly 设 置 为 True 总 是 个 好 主意 。 


16.4.5 执行 搜索 


文件 夹 选 中 后 ， 就 可 以 用 IMAPClient 对 象 的 search() 方 法 搜索 电子 邮 
件 。searchO 的 参数 是 一 个 字符 串 列 表 ， 每 一 个 格式 化 为 IMAP 搜 索 键 。 
表 16-3 介 绍 了 各 种 搜索 键 。 


表 16-3 IMAP 搜 索 键 





a 如 果 你 请 求 一 个 大 文件 夹 中 的 所 有 
消息 ， 可 能 会 遇 到 imaplib 的 大 小 限制 。 参 见 16.4.6 小 节 “ 大 小 限制 ” 











三 个 搜索 键 分 别 返回 给 定 date 之 前 、 当 天 和 之 后 IMAP 服 务 器 接 
ey: 息 。 日 期 的 格式 必须 像 05-Jul-2015。 此 外 ， 虽 然 'SINCE 05- 
Jul-2015' 将 匹配 7 月 5 日 当天 和 之 后 的 消息 ， 但 'BEFORE 05-Jul- 
2015' 仅 匹配 7 月 5 日 之 前 的 消息 ， 不 包括 7 月 5 日 当天 


'BEFORE date’, 
'ON date ', 
'SINCE date ' 




















SUBJECT string | 分别 返回 string 出 现在 主题 、 正 文 、 主 题 或 正文 中 的 消息 。 如 果 


, BODY string’, ` E, 1 7 : m 
'TEXT string ' string 中 有 空格 ， 就 使 用 双 引 号 : 'TEXT "search with spaces 
































FROM string', | 返回 所 有 消息 ， 其 中 string 分 别 出 现 在 “from” 邮 件 地 址 ，“to” 邮 件 
TO string','CC | 地 址 ，“cec”( 抄 送 ) 地 址 ， 或 ‘bcc”( 密 件 抄 送 ) 地 址 中 。 如 果 
string ', ' BCC strine 中 有 多 个 电子 邮件 地 址 ， 就 用 空格 将 它们 分 开 ， 并 使 用 双 引 


string ' “3: 'CC "firstcc@example.com secondcc@example.com "" 




















分 别 返回 包含 和 不 包含 \ Seen 标 记 的 所 有 信息 。 如 果 电 子 邮件 已 

'SEEN’, itech rw 问 《 稍 后 描述 ) ， 或 者 你 曾 在 电子 邮件 程序 马 

'UNSEEN' 网 络 浏览 器 中 点 击 过 它 ， 就 会 有 \ Seen 标 记 。 比较 常用 的 说 法 是 电 
子 邮件 “已 读 "， 而 不 是 “已 看 "”， 但 它们 的 意思 一 样 。 















































'ANSWERED', | 分 别 返 回 包含 和 不 包含 \ Answered 标 记 的 所 有 消息 。 如 果 消 息 已 答 
'UNANSWERED' | 复 ， 就 会 有 \ Answered 标 记 





分 别 返回 包含 和 不 包含 Deleted 标记 的 所 有 信息 
delete_messages() 方 法 删除 的 邮件 就 会 有 \Deleted Ta 直到 调用 


‘DELETED’, expunge() 方 法 才 会 永久 删除 〈 请 参阅 16.4.10 节 “删除 电子 邮 
'UNDELETED' 


















































(ie ， 请 注意 ， 一 些 电子 邮件 提 供 再 ， 例 如 Gmail， 会 自动 清除 
p 











'DRAFT', 分 别 返 回 包 含 和 不 包含 \ Draft 标 记 的 所 有 消息 。 草 稿 邮 件 通常 保存 
'UNDRAFT' 在 单独 的 草稿 文件 夹 中 ， 而 不 是 在 收 件 箱 TF 














'FLAGGED', 分 别 返回 包含 和 不 包含 Flagged 标记 的 所 有 消息 县 。 这 个 标记 通常 
'UNFLAGGED' | 用 来 标记 电子 邮件 为 “重要 ”或 “紧急 ” 











'LARGER N', AG : E es 
‘SMALLER N' 分 别 返 回 大 于 或 小 于 N 个 字 节 的 所 有 消息 





























'NOT search-key' | i 


'OR search-key1 
search-key2 ' 





请 注意 ， 处 理 标志 和 搜索 键 方面 ， 某 些 IMAP 服 务 器 的 实现 可 能 
ne) 能 需要 在 交互 式 环境 中 试验 一 下 ， 看 看 它们 实际 的 行为 如 
可 








人 全国 和 人 可 以 有 多 个 IMAP 搜 索 键 字符 
串 。 返 回 的 消 恩 将 匹配 所 有 的 搜索 键 。 如 果 想 匹配 任何 一 个 搜索 键 ， 使 
用 OR 搜 索 键 。 对 于 NOT 和 OR 搜 索 键 ， 它 们 后 边 分 别 跟着 一 个 和 两 个 完 
整 的 搜索 键 。 


下 面 是 search0) 方 法 调用 的 一 些 例 子 ， 以 及 它们 的 舍 义 : 
imapObj.search (['ALL'] ) 返回 当前 选 定 的 文件 夹 中 的 每 一 个 消 





imapObj.search (['ON 05-Jul-2015'] ) 返 回 在 2015 年 7 月 5 日 发 送 的 每 


imapObj. fay SINCE 01-Jan-2015', 'BEFORE 01-Feb-2015’, 
'UNSEEN')) 返回 2015 年 1 月 发 送 的 所 有 未 读 消 息 ( 注 意 ， 这 意味 着 从 1 





月 1 日 直到 2 月 1 日 ， 但 不 包括 2 月 1 日 ) 。 


imapObj.search(['SINCE 01-Jan-2015', 'FROM 
alice@example.com']) 返回 自 2015 年 开始 以 来 ， 发 自 alice@example.com 
的 消息 。 


imapObj.search(['SINCE 01-Jan-2015', 'NOT FROM 
alice@example.com']) 返回 自 2015 年 开始 以 来 ， 除 alice@example.com 
外 ， 其 他 所 有 人 发 来 的 消息 。 


imapObj.search(['OR FROM alice@example.com FROM 
bob@example.com']) 1 |=] K K alice@example.com=kbob@example.com 


的 所 有 信息 。 


imapObj.search(['FROM alice@example.com', 'FROM 
bob@example.com' JKE 例子 ! 该 搜索 不 会 返回 任何 消息 ， 因 为 消 
奶 必 须 匹 配 所 有 搜索 关键 词 。 因 为 只 能 有 一 个 “from” 地 址 ， 所 以 一 条 消 
县 不 可 能 既 来 自 aliceDexample.com， 又 来 自 bob@example.com。 


search() 方 法 不 返回 电子 邮件 本 身 ， 而 是 返回 邮件 的 唯一 整数 
ID (UID) 。 然 后 ， 可 以 将 这 些 UID 传 入 fetch(0) 方 法 ， 获 得 邮件 内 容 。 


输入 以 下 代码 ， 继 续 交 互 式 环境 的 例子 : 

















>>> UIDs = imapObj.search(['SINCE @5-Jul-2015']) 


[40032, 40033, 40034, 40035, 40036, 40037, 40038, 40039, 40040, 40041] 





这 里 ，search0 返 回 的 消息 ID 列表 〈 针 对 7 月 5 日 以 来 接收 的 消息 ) 
保存 在 UIDs 中 。 计 算 机 上 返回 的 UIDs 列 表 与 这 里 显示 的 不 同 ， 它 们 对 
于 特定 的 电子 邮件 账户 是 唯一 的 。 如 果 你 稍 后 将 UID 传 递 给 其 他 函数 调 
用 ， 请 用 你 收 到 的 UID 值 ， 而 不 是 本 书 例子 中 打印 的 。 


16.4.6 大 小 限制 


如 果 你 的 搜索 匹配 大 量 的 电子 邮件 ，Python 可 能 抛 出 异常 
imaplib.error: got more than 10000 bytes。 如 果 发 生 这 种 情况 ， 必 须 断 开 
并 重 连 IMAP 服 务 占 ， 然 后 再 试 。 


这 个 限制 是 防止 Python 程 序 消耗 太 多 内 存 。 遗 憾 的 是 ， 默 认 大 小 限 
制 往往 太 小 。 可 以 执行 下 面 的 代码 ， 将 限制 从 10000 字 市 改 为 10000000 


FH: 


>>> import imaplib 


>>> imaplib._MAXLINE = 10000000 





这 应 该 能 避免 该 错误 消息 再 次 出 现 。 也 许 要 在 你 写 的 每 一 个 IMAP 
程序 中 加 上 这 两 行 。 


16.4.7 取 邮 件 并 标记 为 已 读 


得 到 UID 的 列表 后 ， 可 以 调用 IMAPClient 对 象 的 fetch() 方 法 ， 获 得 
实际 的 电子 邮件 内 容 。 


UID 列 表 是 fetch0) 的 第 一 个 参数 。 第 二 个 参数 应 该 是 [BODY[]]， 它 





告诉 fetchO 下 载 UID 列 表 中 指定 电子 邮件 的 所 有 正文 内 容 。 


使 用 IMAPClient 的 gmail_ search() 方 法 





如 果 登 录 到 imap.gmail.com 服 务 器 来 访问 Gmail 账户 ，IMAPClient 对 象 提供 了 一 个 额外 的 搜索 函 
数 ， 模 拟 Gmail 网 页 顶部 的 搜索 栏 ， 如 图 16-1 中 高 亮 的 部 分 所 示 。 





| search terms go herel 





图 16-1 在 Gmail 网 页 顶部 的 搜索 栏 


除了 用 IMAP 搜 索 键 搜索 ， 可 以 使 用 Gmail 更 先进 的 搜索 引擎 。Gmail 在 匹配 密切 相关 的 单 
词 方 面 做 得 很 好 〈 例 如 ， 搜 索 driving 也 会 匹配 drive 和 drove) ， 并 按照 匹配 的 程度 对 搜索 结果 
排序 。 也 可 以 使 用 Gmail 的 高 级 搜索 操作 符 〈 更 多 信息 请 参见 
http://nostarch.com/automatestuff/) 。 如 果 登 录 到 Gmail 账户 ， 向 gmail_search() 方 法 传 入 搜索 条 
件 ， 而 不 是 search(0) 方 法 ， 就 像 下 面 交互 式 环境 的 例子 : 

















>>> UIDs = imapObj.gmail_search('meaning of life') 


>> UIDs 


[42] 


| Ef 
啊 ， 是 的 ， 那 封 电 子 邮件 包含 了 生命 的 意义 ! 我 一 直 在 期 待 。 


让 我 们 继续 交互 式 环境 的 例子 。 














rawMessages = imapObj.fetch(UIDs, ['BODY[]']) 


import pprint 


pprint.pprint(rawMessages) 


{40040: {'BODY[]': ‘Delivered-To: my_email_address@gmail.com\r\n' 
"Received: by 10.76.71.167 with SMTP id ' 


--snip 


_Part_6000970_707736290.1404819487066--\r\n', 





导入 pprint， 将 fetchO 的 返回 值 〈 保 存在 变量 rawMessages 中 ) 传 
Apprint.pprint(), SAHR” E. MEAS, XAR eE SRE 
字典 ， 其 中 以 UID 作 为 键 。 每 条 消息 都 保存 为 一 个 字典 ， 包 含 两 个 
$E: BODY[] 和 'SEQ'。'BODYD 键 映射 到 电子 邮件 的 实际 正 
文 。'SEQ' 键 是 序列 号， 它 与 UID 的 作用 类 似 。 你 可 以 放心 地 忽略 它 。 





正如 你 所 看 到 的 ， 在 BODYD' 键 中 的 消息 内 容 是 相当 难 理解 的 。 这 
种 格式 称 为 RFC822， 是 专 为 IMAP 服 务 器 读 取 而 设计 的 。 但 你 并 不 需要 
理解 RFC 822 格 式 ， 本 章 稍 后 的 pyzmail 模 块 将 蔡 你 来 理解 它 。 


如 有 果 你 选择 一 个 文件 夹 进行 搜索 ， 就 用 readonly=True 关 键 字 参数 来 
调用 select_ folder()。 这 样 做 可 以 防止 意外 删除 电子 邮件 ， 但 这 也 意味 着 
你 用 fetch0) 方 法 获取 邮件 时 ， 它 们 不 会 标记 为 已 读 。 如 果 确 实 希 望 在 获 
取 邮 件 时 将 它们 标记 已 读 ， 就 需要 将 readonly=False 传 入 select_folder()。 
如 果 所 选 文件 夹 已 处 于 只 读 模式 ， 可 以 用 为 一 个 select_folderO 调 用 重新 
选择 当前 文件 夹 ， 这 次 用 readonly=False 关 键 字 参数 : 








>>> imapObj.select_folder('INBOX', readonly=False) 








16.4.8 从 原始 消息 中 获取 电子 邮件 地 址 


对 于 只 想 读 邮件 的 人 来 说 ，fetch(0) 方 法 返回 的 原始 消息 仍然 不 太 有 
用 。pyzmail 模 块 解析 这 些 原 始 消 息 ， 将 它们 作为 PyzMessage 对 象 返 
回 ， 使 邮件 的 主题 、 正 文 、“ 收 件 人 ”字段 、“ 发 件 人 ”字段 和 其 他 部 分 能 
用 Python 代 码 轻松 访问 。 


用 下 面 的 代码 继续 交互 式 环境 的 例子 (使 用 你 目 己 的 邮件 账户 的 
UID， 而 不 是 这 里 显示 的 ) : 





>>> import pyzmail 


>>> message = pyzmail.PyzMessage.factory(rawMessages|[40041][ 'BODY[]']) 


首先 ， 导 入 pyzmail。 然 后 ， 为 了 创建 一 个 电子 邮件 的 PyzMessage 
对 象 ， 调 用 pyzmail.PeekMessage.factory0O 函 数 ， 并 传 入 原始 邮件 
的 BODY[]' 部 分 。 结 果 保 存在 message 中 。 现 在 ，message 中 包含 一 个 
PyzMessage 对 象 ， 它 有 几 个 方法 ， 可 以 很 容易 地 获得 的 电子 邮件 主题 
行 ， 以 及 所 有 发 件 人 和 收 件 人 的 地 址 。get_subject0 方 法 将 主题 返回 为 
一 个 简单 字符 串 。get_addresses(0) 方 法 针对 传 入 的 字段 ， 返 回 一 个 地 址 
列表 。 例 如 ， 访 方法 调用 可 能 像 这 样 : 





>>> message.get_subject() 


"Hello!' 
>>> message. get_addresses('from' ) 


[('Edward Snowden', ‘esnowden@nsa.gov' ) ] 
>>> message.get_addresses('to') 


[(Jane Doe’, ‘'my_email_address@gmail.com' ) ] 
>>> message.get_addresses('cc') 


[] 


>>> message.get_addresses('bcc') 


请 注意 ，get_addresses() 的 参数 是 'from'、'to'、'cc' 或 bcc'。 
get_addresses() 的 返回 值 是 一 个 元 组 列表 。 每 个 元 组 包含 两 个 字符 串 : 
第 一 个 是 与 该 电子 邮件 地 址 关联 的 名 称 ， 第 二 个 是 电子 邮件 地 址 本 里 。 
如 果 请 求 的 字段 中 没有 地 址 ， TE 
里 ，'cc 抄 送 和 mcc 密 件 抄 送 字段 都 没有 包含 地 址 ， 所 以 返回 空 列 表 。 


16.4.9 从 原始 消息 中 获取 正文 


电子 邮件 可 以 是 纯 文 本 、HTML 或 两 者 的 混合 。 纯 文本 电子 邮件 只 
包含 文本 ， 而 HIML 电 子 邮件 可 以 有 颜色 、 字 体 、 图 像 和 其 他 功能 ， 使 
得 电子 邮件 看 起 来 像 一 个 小 网 页 。 如 果 电 子 邮 件 仅仅 是 纯 文 本 ， 它 的 
PyzMessage 对 象 会 将 html_part 属 性 设 为 None。 同 样 ， 如 果 电 子 邮 件 只 是 
HTML， 它 的 PyzMessage 对 象 会 将 text_part 属 性 设 为 None。 














含 则 ，text_part 或 html_part 将 有 一 个 get_payload0 方 法 ， 将 电子 邮件 
的 正文 返回 为 bytes 数 据 类 型 (bytes 数 据 类 型 超出 了 本 书 的 范围 ) 。 但 
是 ， 这 仍然 不 是 我 们 可 以 使 用 的 字符 串 。 啊 ! 最 后 一 步 对 get_ sey aon 
返回 的 bytes 值 调用 decode() 方 法 。decode0) 方 法 接受 一 个 参数 : 这 条 消息 
的 字符 编码 ， 保 存在 text_part.charset 或 html_part.charset 属 性 中 。 最 最 后 ， 
这 返回 了 邮件 正文 的 字符 串 。 


输入 以 下 代码 ， 继 续 交 互 式 环境 的 例子 : 








@ >>> message.text_part != None 


True 


>>> message.text_part.get_payload().decode(message.text_part.charset) 


@ 'So long, and thanks for all the fish!\r\n\r\n-Al\r\n' 
© >>> message.html_part != None 


True 
@ >>> message. html_part.get_payload().decode(message.html_part.charset) 


"< div dir="l1tr">< div>So long, and thanks for all the fish!< br>< br>< / 
< br>< /div>\r\n' 





我 们 正在 处 理 的 电子 邮件 包含 纯 文 本 和 HTML 内 容 ， 因 此 保存 在 
message 中 的 PyzMessage 对 象 的 text_part 和 html_part 属 性 不 等 于 
None@@， 对 消息 的 text_part 调 用 get_payloadO)， 然 后 在 bytes 值 上 调用 





decode()， 返 回电 子 邮 件 的 文本 版 本 的 字符 串 介 。 对 消息 的 html_part 调 
用 get_payload() 和 decode()， 返 回电 子 邮件 的 HTML 版 本 的 字符 串 人 @。 


16.4.10 删除 电子 邮件 


要 删除 电子 邮件 ， 就 向 IMAPClient 对 象 的 delete_messages() 方 法 传 
入 一 个 消息 UID 的 列表 。 这 为 电子 邮件 加 上 \Deleted 标 志 。 调 用 
expunge() 方 法 ， 将 永久 删除 当前 选中 的 文件 夹 中 带 \Deleted 标 志 的 所 有 
电子 邮件 。 请 看 下 面 的 交互 式 环境 的 例子 : 








@ >>> imapObj.select_folder('INBOX', readonly=False) 


@ >>> UIDs = imapObj.search(['ON 09-Jul-2015']) 


>>> UIDs 


[40066] 
>>> imapObj.delete_messages (UIDs) 


© {40066: ('\\Seen', '\\Deleted')} 
>>> imapObj.expunge() 


('Success', [(5452, 'EXISTS')]) 





这 里 ， 我 们 调用 了 IMAPClient 对 象 的 select_folder() 方 法 ， 传 
入 INBOX' 作 为 第 一 个 参数 ， 选 择 了 收 件 箱 。 我 们 也 传 入 了 关键 字 参 数 
readonly=False， 这 样 我 们 就 可 以 删除 电子 邮件 @。 我 们 搜索 收 件 箱 中 的 
特定 日 期 收 到 的 消息 ， 将 返回 的 消息 ID 保存 在 UIDs 中 候 。 调 用 





delete_message() 并 传 入 UIDs， 返 回 一 个 字典 ， 其 中 每 个 键 值 对 是 一 个 消 
息 ID 和 消息 标志 的 元 组 ， 它 现在 应 该 包含 \Deleted 标 志 人 @。 人 然后 调用 
expunge()， 永 久 有 删除 带 \Deleted 标 志 的 邮件 。 如 果 清 除 邮件 没有 问题 ， 
就 返回 一 条 成 功 信息 。 请 注意 ， 一 些 电 子 邮 件 提 供 商 ， 如 Gmail， 会 自 
动 清除 用 delete_messages() 删 除 的 电子 邮件 ， 而 不 是 等 待 来 日 IMAP 客 户 











端的 expunge 命 令 。 
16.4.11 从 IMAP 服 务 器 断 开 


如 果 程 序 已 经 完成 了 获取 和 删除 电子 邮件 ， 就 调用 IMAPClient 的 
logout(0) 方 法 ， 从 IMAP 服 务 器 断 开 连接 。 


>>> imapObj.logout() 








如 果 程 序 运 行 了 几 分 钟 或 更 长 时 间 ，IMAP 服 务 器 可 能 会 超时 ， 或 
自动 断 开 。 在 这 种 情况 下 ， 接 下 来 程序 对 IMAPClient 对 象 的 方法 调用 会 
抛 出 异常 ， 像 下 面 这 样 : 








imaplib.abort: socket error: [WinError 10054] An existing connection was 
forcibly closed by the remote host 





在 这 种 情况 下 ， 程 序 必 须 调用 imapclient.IMAPClient()， 再 次 连接 。 
哟 ! 齐 活 了 。 要 跳 过 很 多 圈 圈 ， 但 你 现在 有 办 法 让 Python 程 序 登 录 





到 一 个 电子 邮件 账户 ， 并 获取 电子 邮件 。 需 要 回忆 所 有 步骤 时 ， 你 可 以 
随时 参考 16.4 节 “用 IMAP 获 取 和 删除 电子 邮件 ”。 


16.5 项 目 : 癌 会 员 发 送 会 费 提醒 电子 邮件 


假定 你 一 直 “ 自 愿 ”为 “强制 自愿 俱乐部 ”记录 会 员 会 费 。 这 确实 是 一 
项 枯燥 的 工作 ， 包 括 维护 一 个 电子 表格 ， 记 录 每 个 月 谁 交 了 会 宽 ， 并 用 
电子 邮件 提醒 那些 没 交 的 会 员 。 不 必 你 自己 查看 电子 表格 ， 而 是 癌 会 费 














超期 的 会 员 复 制 和 粘贴 相同 的 电子 邮件 。 你 猜 对 了 ， 让 我 们 编写 一 个 脚 
本 ， 帮 你 完成 任务 。 


在 较 高 的 层面 上 上， 下面 是 程序 要 做 的 事 : 

从 Excel 电 子 表 格 中 读 取 数据 。 

找 出 上 个 月 没有 交 费 的 所 有 会 员 。 

找到 他 们 的 电子 邮件 地 址 ， 向 他 们 发 送 针 对 个 人 的 提醒 。 

这 意味 着 代码 需要 做 到 以 下 几 点 : 

用 openpyxl 模 块 打 开 并 读 取 Excel 文 档 的 单元 格 (处理 Excel 文 件 参 
见 第 12 章 ) 。 

创建 一 个 字典 ， 包 含 会 费 超 期 的 会 员 。 

调用 smtplib.SMTPO、ehlo0、starttls0 和 1login0， 登 录 SMTP 服 务 


AÑ 0 
EIS Dec PA ze it, sendmail IA, RIZE MI TAY 
电子 邮件 提醒 。 


打开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 sndDuesReminders.py。 





第 1 步 : 打开 Excel 文 件 


假定 用 来 记录 会 费 文 付 的 Excel 电子 表格 看 起 来 如 图 16-2 所 示 ， 放 
在 名 为 duesRecords.xlsx 的 文件 中 。 可 以 从 
http://nostarch.com/automatestuff/ 下 载 该 文件 。 
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图 16-2 记录 会 员 会 费 文 付 电 子 表格 


该 电子 表格 中 包含 每 个 成 员 的 姓名 和 电子 邮件 地 址 。 每 个 月 有 一 
列 ， 记 录 会 员 的 付款 状态 。 在 成 员 交 纳 会 费 后 ， 对 应 的 单元 格 就 记 为 
paid。 





该 程序 必须 打开 duesRecords.xlsx， 通 过 调用 get_highest_column0) 方 
法 ， 弄 清楚 最 近 一 个 月 的 列 ( 可 以 参考 第 12 章 ， 了 解 用 openpyxl 模 块 访 
i 。 在 文件 编辑 器 窗口 中 输入 
以 下 代码 ; 





#! python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsh 


import openpyxl, smtplib, sys 
# Open the spreadsheet and get the latest dues status. 
@ wb = openpyxl.load_workbook('duesRecords.x1sx') 


@ sheet = wb.get_sheet_by_name('Sheet1' ) 


© lastCol = sheet.get_highest_column() 
@ latestMonth = sheet.cell(row=1, column=lastCol).value 


# TODO: Check each member's payment status. 


# TODO: Log in to email account. 


# TODO: Send out reminder emails. 





导入 openpyxl、smtplib 和 sys 模 块 后 ， 我 们 打开 duesRecords.xlsx 文 
件 ， 将 得 到 的 Workbook 对 象 保存 在 wb 中 @。 然 后 ， 取 得 Sheet 1， 将 得 
到 的 Worksheet 对 象 保存 在 sheet 中 仿 。 既 然 有 了 Worksheet 对 象 ， 就 可 以 
访问 行 、 列 和 单元 格 。 我 们 将 最 后 一 列 保存 在 lastCol 中 四， 然后 用 行 号 








1 和 1lastCol 来 访问 应 该 记录 痢 最 近 月 份 的 单元 格 。 取 得 该 单元 格 的 值 ， 
并 保存 在 latestMonth FA. 


第 2 步 : 查找 所 有 未 付 成 员 


一 旦 确定 了 最 近 一 个 月 的 列 数 〈 保 存在 lastCol 中 ) , EAT LAP at 
历 第 一 行 〈 这 是 列 标 题 ) 之 后 的 所 有 行 ， 看 看 哪些 成 员 在 该 月 会 费 的 单 
元 格 中 写 厦 paid。 如 果 会 员 没 有 文 付 ， 就 可 以 从 列 1 和 2 中 分 别 抓 取 成 员 
的 姓名 和 电子 邮件 地 址 。 这 些 信息 将 放 入 unpaidMembers 字 上 典 ， 它 记录 
最 近 一 个 月 没有 交 费 的 所 有 成 员 。 将 以 下 代码 添加 到 
sendDuesReminder.py 中 。 











#! python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsh 


--snip 


# Check each member's payment status. 


unpaidMembers = {} 


@ for r in range(2, sheet.get_highest_row() + 1): 


@ payment = sheet.cell(row=r, column=lastCol).value 
if payment != 'paid': 

© name = sheet.cell(row=r, column=1).value 

e email = sheet.cell(row=r, column=2).value 

© unpaidMembers[name] = email 





这 段 代 码 设 置 了 一 个 空 字典 unpaidMembers， 然 后 循环 遍历 第 一 行 








之 后 所 有 的 行 @。 对 于 每 一 行 ， 最 近 月 份 的 值 保 存在 payment 中 信 。 如 


果 payment 不 等 于 'paid'， 则 第 一 列 的 值 保存 在 name 中 合 ， 第 二 列 的 值 保 
存在 email 中 信 ，name 和 email 添 加 到 unpaidMembers 中 人 @，。 


第 3 步 : 发 送 定制 的 电子 邮件 提醒 
得 到 所 有 未 付费 成 员 的 名 单 后 ， 束 可 以 同 他 们 发 送 电子 邮件 提醒 


了 。 将 下 面 的 代码 添加 到 程序 中 ， 但 要 代入 你 的 真实 电子 邮件 地 址 和 提 
供 丙 的 信息 : 





#! python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadshee 


--snip 


# Log in to email account. 


smtpObj = smtplib.SMTP('smtp.gmail.com', 587) 


smtpObj.ehlo() 


smtpObj.startt1s() 


smtpObj.login('my_email_address@gmail.com 





", sys.argv[1]) 


调用 smtplib.SMTPO 并 传 入 提供 商 的 域名 和 端口 ， 创 建 一 个 SMTP 对 
象 。 调 用 ehlo0 和 starttls0， 然 后 调用 login0， 并 传 入 你 的 电子 邮件 地 址 
和 sys.argv[1]， 其 中 保存 着 你 的 密码 字符 串 。 在 每 次 运行 程序 时 ， 将 密 
码 作为 命令 行 参数 输入 ， 避 免 在 源 代 码 中 保存 密码 。 


程序 登录 到 你 的 电子 邮件 账户 后 ， 就 应 该 志 历 atnpaidMembers 字 
典 ， 回 每 个 会 员 的 电子 邮件 地 址 发 送 针 对 个 人 的 电子 邮件 。 将 以 下 代码 
添加 到 sendDuesReminders.py: 











#! python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsh 


--snip 


# Send out reminder emails. 


for name, email in unpaidMembers.items(): 


@ body = "Subject: %s dues unpaid.\nDear %s,\nRecords show that you ha 


paid dues for %s. Please make this payment as soon as possible. Thank you 


(latestMonth, name, latestMonth) 


@ print('Sending email to %s...' % email) 
© sendmailStatus = smtpObj.sendmail('my_email_address@gmail .com 


, email, body) 


@ if sendmailStatus != {}: 


print('There was a problem sending email to %s: %s' % (email, 


sendmailStatus) ) 


smtpObj.quit() 





这 段 代 码 循环 遍历 unpaidMembers 中 的 姓名 和 电子 邮件 。 对 于 每 个 
没有 付费 的 成 员 ， 我 们 用 最 新 的 月 份 和 成 员 的 名 称 ， 定 制 了 一 条 消 明 ， 
并 保存 在 body 中 人 @。 我 们 打印 输出 ， 表 示 正 在 问 这 个 会 员 的 电子 邮件 地 
址 发 送 电子 邮件 仿 。 然 后 调用 sendmail0， 向 它 传 入 地 址 和 定制 的 消息 
合 。 返 回 值 保存 在 sendmailStatus 中 。 


回忆 一 下 ， 如 果 SMTP 服 务 器 在 发 送 某 个 电子 邮件 时 报告 错误 ， 
sendmail() 方 法 将 返回 一 个 非 空 的 字典 值 。for 循 环 最 后 部 分 在 人 @ 行 检查 
i 如 果 非 空 ， 则 打印 收 件 人 的 电子 邮件 地 址 以 及 返 
回 的 字典 。 





程序 完成 发 送 所 有 电子 邮件 后 ， 调 用 quit(0 方 法 ， 与 SMTP 服 务 右 断 
FER. 


如 末 运 行 该 程序 ， 输 出 会 像 这 样 : 


Sending email to alice@example.com... 


Sending email to bob@example.com... 
Sending email to eve@example.com... 





收 件 人 将 收 到 如 图 16-3 所 示 的 电子 邮件 。 





June 2014 dues unpaid. inbox x 


e Al Sweigart <asweigart@gmail.cam> 
. = = en 
to me [~ 


Dear Alice 
Records show that you have not paid dues for June 2014. Please make this payment as soon as possible. Thank you! 























图 16-3 从 sendDuesReminders.py 自 动 发 送 的 电子 邮件 


16.6 用 Twilio 发 送 短信 


大 多 数 人 更 可 能 靠近 目 己 的 手机 ， 而 不 是 目 己 的 电脑 ， 所 以 与 电子 
邮件 相 比 ， 短 信 发 送 通 知 可 能 更 和 直接、 可靠。 此外， 短信 的 长 度 较 短 ， 
让 人 更 有 可 能 阅读 它们 。 


在 本 节 中 ， 你 将 学 习 如 何 注册 免费 的 Twilio 服 务 ， 并 用 和 它 的 Python 
模块 发 送 短信 。Twilio 是 一 个 SMS 网 关 服 务 ， 这 意味 着 它 是 一 种 服务 ， 
让 你 通过 程序 发 送 短信 。 虽 然 每 月 发 送 多 少 短信 会 有 限制 ， 并 且 文 本 前 
面 会 加 上 Sent from a Twilio trial account， 但 这 项 试用 服务 也 许 能 满足 你 
的 个 人 程序 。 免 费 试用 没有 限期 ， 不 必 以 后 升级 到 付费 的 套餐 。 


Twilio 不 是 唯一 的 SMS 网 关 服 务 。 如 果 你 不 喜欢 使 用 Twilio， 可 以 
在 线 搜索 free sms gateway, python sms api， 甚 至 twilio alternatives， 寻 找 
BIS o 


注册 Twilio 账 户 之 前 ， 先 安装 twilio 模 块 。 附 录 A 详 细 介 绍 了 如 何 安 
装 第 三 方 模块 。 


本 节 特 别针 对 美国 。Twilio 确实 也 在 美国 以 外 的 国家 提供 手机 短信 
服务 ， 本 书 并 不 包括 这 些 细节 。 但 twilio 模块 及 其 功能 ， 在 美国 以 外 的 
国家 也 能 用 。 更 多 信息 请 参见 http://twilio.com/。 














16.6.1 注册 Twilio 账 号 


访问 http:/twilio.com/ 并 填写 注册 表单 。 注 册 了 新 账户 后 ， 你 需要 验 
证 一 个 手机 号 码 ， 短 信 将 发 给 该 号 码 (这 项 验证 是 必要 的 ， 防 止 有 人 利 











用 该 服务 加 任意 的 手机 号 码 发 送 垃圾 短信 ) 。 


收 到 验证 号 码 短信 后 ， 在 Twilio 网 站 上 输入 它 ， 证 明 你 拥有 要 验证 
的 手机 。 现 在 ， 就 可 以 用 twilio 模 块 问 这 个 电话 号 码 有 发送 短信 了 。 


Twilio 提 供 的 试用 账户 包括 一 个 电话 号 码 ， 它 将 作为 短信 的 发 送 
者 。 你 将 需要 两 个 信息 : 你 的 账户 SID 和 AUTH (认证 ) 标志 。 在 登录 
Twilio 账 户 时 ， 可 以 在 Dashboard 页 面 上 找到 这 些 信 息 。 从 Python 程序 登 
录 时 ， 这 些 值 将 作为 你 的 Twilio 用 户 名 和 密码 。 


16.6.2 发 送 短信 


一 旦 安装 了 twilio 模 块 ， 注 册 了 Twilio 账 号 ， 验 证 了 你 的 手机 号 人 码 ， 
登记 了 Twilio 电 话 号 码 ， 获 得 了 账户 的 SID 和 auth 标 志 ， 你 束 终 于 准备 好 
通过 Python 脚本 回 你 自己 发 短信 了 。 


与 所 有 的 注册 步骤 相 比 ， 实 际 的 Python 代码 很 简单 。 保 持 计算 机 连 
接 到 因特网 ， 在 交互 式 环境 中 输入 以 下 代码 ， 用 你 的 真实 信息 蔡 换 
accountSID、authToken、myTwilioNumber 和 myCellPhone 变 量 的 值 : 








@ >>> from twilio.rest import TwilioRestClient 


>>> accountSID = 'ACXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 


>>> authToken = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 


@ >>> twilioCli = TwilioRestClient(accountSID, authToken) 


>>> myTwilioNumber = '+14955551234' 


>>> myCellPhone = '+14955558888' 


© >>> message = twilioCli.messages.create(body='Mr. Watson - Come here - I 


to see you.', from_=myTwilioNumber, to=myCellPhone) 





键入 最 后 一 行 后 不 入， 你 会 收 到 一 条 短信 ， 内 容 为 : Sent from your 


Twilio trial account - Mr. Watson - Come here — I want to see you.. 





为 twilio 模 块 的 设计 方式 ， 导 入 它 时 需要 使 用 from twilio.rest 
import TwilioRestClient， 而 不 仅仅 是 import twilio@。 将 账户 的 SID 保 存 


在 accountSID， 认 证 标志 保存 在 authToken 中 ， 然 后 调用 
TwilioRestClient()， 并 传 入 accountSID 和 authToken。TwilioRestClient() 调 
用 返回 一 个 TwilioRestClient 对 象 信 。 该 对 象 有 一 个 message 属 性 ， 该 属 
性 又 有 一 个 create() 方 法 ， 可 以 用 来 发 送 短信 。 正 是 这 个 方法 ， 将 告诉 
Twilio 的 服务 器 发 送 短 信 。 将 你 的 Twilio 号 码 和 手机 号 人 码 分 别 保存 在 
myTwilioNumber 和 myCellPhone 中 ， 然 后 调用 create()， 传 入 关键 字 参 
数 ， 指 明 短 信 的 正文 、 发 件 人 的 号 码 GnyTwilioNumber) ， 以 及 收 信 
人 的 电话 号 码 CnyCellPhone) @ 


create() 方 法 返回 的 Message 对 象 将 包含 已 发 送 短 信 的 相关 信息 。 输 
入 以 下 代码 ， 继 续 交 互 式 环境 的 例子 : 


>>> message.to 


"+14955558888' 
>>> message. from 


"414955551234 ' 
>>> message. body 


"Mr. Watson - Come here - I want to see you.' 





to、from 和 body 属 性 应 该 分 别 保存 了 你 的 手机 号 码 、Twilio 号 码 和 
消息 。 请 注意 ， 发 送 手机 号 码 是 在 from 属性 中 ， 末 尾 有 一 个 下 划 线 ， 而 
不 是 from。 这 是 因为 from 是 一 个 Python 关键 字 〈 例 如 ， 你 在 from 
modulename import * 形 式 的 import 语 句 中 见 过 它 ) ， 所 以 它 不 能 作为 一 





个 属性 名 。 输 入 以 下 代码 ， 继 续 交 互 式 环境 的 例子 : 


>>> message.status 


"queued ' 
>>> message.date_created 


datetime.datetime(2015, 7, 8, 1, 36, 18) 
>>> message.date_sent == None 





status 属性 应 该 包含 一 个 字符 串 。 如 果 消 息 被 创建 和 发 送 ， 
date_created 和 date_sent 属 性 应 该 包含 一 个 datetime 对 象 。 如 果 已 收 到 短 
信 ， 而 status 属 性 却 设置 为 "queued'，date_sent 属 性 设置 为 None， 这 似乎 
有 点 奇怪 。 这 是 因为 你 先 将 Message 对 象 记录 在 message 变 量 中 ， 然 后 短 
信 才 实际 发 送 。 你 需要 重新 获取 Message 对 象 ， 查 看 它 最 新 的 status 和 和 
date_sent。 每 个 Twilio 消 息 都 有 唯一 的 字符 串 ID (SID) ， 可 用 于 获取 
Message 对 象 的 最 新 更 新 。 输 入 以 下 代码 ， 继 续 交 互 式 环境 的 例子 : 





>>> message.sid 


'SMO9520de7639ba3af137c6fcb7c5f4b51' 
@ >>> updatedMessage = twilioCli.messages.get(message.sid) 


>>> UpdatedMessage.status 


"delivered 
>>> updatedMessage.date_sent 


datetime.datetime(2015, 7, 8, 1, 36, 18) 





输入 message.sid 将 显示 这 个 消息 的 SID 。 将 这 个 SID 传 入 Twilio 客 户 
端的 get0) 方 法 @Q@， 你 可 以 取得 一 个 新 的 Message 对 象 ， 包 含 最 新 的 信 
上 息 。 在 这 个 新 的 Message 对 象 中 ，status 和 date_sent 属 性 是 正确 的 。 


status 属 性 将 设置 为 下 列 字 符 串 之 
: 'queued'、'sending'、'sent'、'delivered'、'"undelivered' 或 'failed'。 这 些 
状态 不 言 自明， 但 对 于 更 准确 的 细节 ， 请 查看 http:/nostarch. 
com/automatestuff/ 的 资源 。 


用 Python 接收 短信 
遗憾 的 是 ， 用 Twilio 接 收 短信 比 发 送 短信 和 更 复杂 一 些 。Twilio 需 要 你 有 一 个 网 站 ， 运 行 自己 的 
Web 应 用 程序 。 这 已 超出 了 本 书 的 范围 ， 但 你 可 以 在 本 书 的 资源 中 找到 更 多 细节 


(http://nostarch.com/automatestuff/) 。 


16.7 项 目 : “只 给 我 发 短信 ”模块 


最 常用 你 的 程序 发 短信 的 人 可 能 就 是 你 。 当 你 远离 计算 机 时 ， 短 信 
是 通知 你 自己 的 好 方式 。 如 果 你 已 经 用 程序 自动 化 了 一 个 无 聊 的 任务 ， 

































































它 需 要 运行 几 小 时 ， 你 可 以 在 它 完 成 时 ， 让 它 用 短信 通知 你 。 或 者 可 以 
定期 运行 某 个 程序 ， 它 有 时 需要 与 你 联系 ， 例 如 天 气 检查 程序 ， 用 短信 
提醒 你 带 伞 。 


举 一 个 简单 的 例子 ， 下 面 是 一 个 Python 小 程序 ， 包含 了 textmyself() 
函数 ， 它 将 传 入 的 字符 串 参 数 作为 短信 发 出 。 打 开 一 个 新 的 文件 编辑 蓝 
窗口 ， 输 入 以 下 代码 ， 用 自己 的 信息 蔡 换 帐 户 SID， 认 证 标志 和 电话 号 
码 。 将 它 保 存 为 textMyself.py。 











#! python3 
# textMyself.py - Defines the textmyself() function that texts a message 
# passed to it as a string. 


# Preset values: 
accountSID = 'ACXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 


authToken = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 


myNumber = '+15559998888' 
twilioNumber = '+15552225678' 


from twilio.rest import TwilioRestClient 


@ def textmyself (message): 
@ twilioCli = TwilioRestClient(accountSID, authToken) 
© twilioCli.messages.create(body=message, from_=twilioNumber, to=myNum 





该 程序 保存 了 账户 的 SID、 认 证 标志 、 发 送 号 码 及 接收 号 码 。 然 后 
它 定 义 了 textmyself()， 接 收 参数 @， 创 建 TwilioRestClient 对 象 信 ， 并 用 
你 传 入 的 消息 调用 create0@，。 


如 果 你 想 让 其 他 程序 使 用 textmyselfO 函 数 ， 只 需 将 textMyself.py 文 
件 和 Python 的 可 执行 文件 放 在 同一 个 文件 夹 中 (Windows 上 是 
C:\Python34, OS X Ež/usr/local/lib/python3.4, Linux 上 
是 /asrbin/python3) 。 现 在 ， 你 可 以 在 其 他 程序 中 使 用 该 函数 。 只 要 想 
在 程序 中 发 短信 给 你 ， 就 添加 以 下 代码 : 





import textmyself 
textmyself.textmyself('The boring task is finished.') 





注册 Twilio 和 编写 短信 代码 只 要 做 一 次 。 在 此 之 后 ， 从 任何 其 他 程 
序 中 发 短信 ， 只 要 两 行 代码 。 








16.8 小 结 


通过 因特网 和 手机 网 络 ， 我 们 用 几 十 种 不 同 的 方式 相互 通信 ， 但 以 
电子 邮件 和 短信 为 主 。 你 的 程序 可 以 通过 这 些 渠 道 沟通 ， 这 给 它们 带 来 
强大 的 新 通知 功能 。 甚 至 可 以 编程 运行 在 不 同 的 计算 机 上 ， 相 互 直 接 通 
ye 一 个 程序 用 SMTP 发 送 电子 邮件 ， 另 一 个 用 IMAP 收 














Python 的 smtplib 提供 了 一 些 函 数 ， 利 用 SMTP， 通 过 电子 邮件 提 
供 了 商 的 SMTP 服 务 器 发 送 电 子 邮件 。 同 样 ， 第 三 方 的 imapdlient 和 pyzmail 
模块 让 你 访问 IMAP 服 务 器 ， 并 取 回 友 送 给 你 的 电子 邮件 。 虽 然 IMAP 比 
SMTP 复 杂 一 些 ,但 它 也 相当 强大 ， 人 允许 你 搜索 特定 电子 邮件 、 下 载 它 
们 、 解 析 它 们 ， 提 取 主 题 和 正文 作为 字符 串 值 。 


短信 与 电子 邮件 有 点 不 同 ， 因 为 它 不 像 电 子 邮 件 ， 发 送 短信 不 仅 需 
要 互联 网 连接 。 好 在 ， 像 Twilio 这 样 的 服务 提供 了 模块 ， 允 许 你 通过 程 
序 发 送 短 信 。 一 旦 通过 了 初始 设置 过 程 ， 就 能 够 只 用 几 行 代码 来 发 送 短 
信 。 和 掌握 了 这 些 模块 ， 就 可 以 针对 特定 的 情况 纺 程 ， 在 这 些 情况 下 发 送 
通知 或 提醒 。 现 在 ， 你 的 程序 将 超越 运行 它们 的 计算 机 ! 








16.9 习题 


1. 发 送 电子 邮件 的 协议 是 什么 ? 检查 和 接收 电子 邮件 的 协议 是 什 


2. 必须 调用 哪 4 个 smtplib 函 数 /方法 ， 才 能 登录 到 SMTP 服 务 器 ? 
3. 必须 调用 哪 两 个 imapclient 函 数 /方法 ， 才 能 登录 到 IMAP 服 务 


4. 传递 给 mapObj.searchO 什 么 样 的 参数 ? 


5. 如 果 你 的 代码 收 到 了 错误 消息 ，got more than 10000 bytes， 你 该 
怎么 做 ? 


6. imapclient 模 块 负 责 连 接 到 IMAP 服 务 器 和 查找 电子 邮件 。 什 么 
模块 负责 读 取 imapclient 收 集 的 电子 邮件 ? 


7. 在 发 送 短 信之 前 ， 你 需要 从 Twilio 得 到 哪 3 种 信息 ? 


16.10 实践 项 日 

作为 实践 ， 编 程 完成 以 下 任务 。 
16.10.1 随机 分 配 家 务 活 的 电子 邮件 程序 

编写 一 个 程序 ， 接 受 一 个 电子 邮件 地 址 的 列表 ， 以 及 一 个 需要 做 的 
家 务 活 列 表 ， 并 随机 将 家 务 活 分 配给 他 们 。 用 电子 邮件 通知 每 个 人 分 配 
给 他 们 的 家 务 。 如 果 你 觉得 需要 挑战 ， 束 记录 每 个 人 之 前 分 配 家 务 活 的 
记录 ， 这 样 就 可 以 确保 程序 不 会 回 任何 人 分 配 上 一 次 同样 的 家 务 活 。 田 
一 个 可 能 的 功能 ， 就 是 安排 程序 每 周 自动 运行 一 次 。 

这 里 有 一 个 提示 : 如 果 将 一 个 列表 传 入 random.choice0) 冰 数 ， 它 将 
从 该 列表 中 返回 一 个 随机 选择 的 项 。 你 的 部 分 代码 看 起 来 可 能 像 这 样 : 





chores = ['dishes', 'bathroom', 'vacuum', ‘walk dog ] 
randomChore = random.choice(chores) 
chores .remove(randomChore ) # this chore is now taken, so remove it 


| | 
16.10.2 爹 提醒 程序 
第 11 章 展示 了 如 何 利 用 requests 模 块 ， 从 http://weather.gov/ 抓 取 数 


据 。 编 写 一 个 程序 ， 在 你 早晨 快 醒 来 时 运行 ， 检 查 当 天 是 否 会 下 雨 。 如 
打 会 下 雨 ， 让 程序 用 短信 提醒 你 出 门 之 前 带好 一 把 伞 。 














16.10.3 目 动 退 订 


编程 扫描 你 的 电子 邮件 账户 ， 在 所 有 邮件 中 找到 所 有 退 订 链接 ， 并 
自动 在 浏览 右 中 打开 它们 。 访 程序 必须 登录 到 你 的 电子 邮件 服务 提供 商 
的 IMAP 服 务 器 ， 并 下 载 所 有 电子 邮件 。 可 以 用 BeautifulSoup 〈 在 第 11 
章 中 介绍 ) 检查 所 有 出 现 unsubscribe GEI) 的 HTML 链 接 标 签 。 


得 到 这 些 URL 的 列表 后 ， 可 以 用 webbrowser.open()， 在 浏览 器 中 自 
动 打 开 所 有 这 些 链接 。 


仍然 需要 手工 操作 并 完成 所 有 额外 的 步骤 ， 从 这 些 邮件 列表 中 退 
订 。 在 大 多 数 情况 下 ， 这 需要 反击 一 个 链接 确认 。 


但 这 个 脚本 让 你 不 必 碍 看 所 有 电子 邮件 ， 寻 找 退 订 链 接 。 然 后 ， 可 
以 将 这 个 脚本 转 给 你 的 朋友 ， 让 他 们 能 够 针对 他 们 的 电子 邮件 账户 运行 
它 《 要 确保 你 的 邮箱 密码 没有 硬 编 码 在 源 代 码 中 ) 。 


16.10.4 通过 电子 邮件 控制 你 的 电脑 


编写 一 个 程序 ， 每 15 分 钟 检查 电子 邮件 账户 ， 获 取 用 电子 邮件 发 送 
的 所 有 指令 ， 并 自动 执行 这 些 指 令 。 例 如 ，BitTorrent 是 一 个 对 等 网 络 
下 载 系统 。 利 用 免费 的 BitTorrent 软 件 ， 如 qdBittorrent， 可 以 在 家 用 电脑 
上 下 载 很 大 的 媒体 文件 。 如 果 你 用 电子 邮件 同 该 程序 发 送 一 个 (完全 合 
法 的 ， 根 本 不 是 盗版 的 ) BitTorrent 链 接 ， 该 程序 将 检查 电子 邮件 ， 发 
现 这 个 消息 ， 提 取 链 接 ， 然 后 启动 qBittorrent， 开 始 下 载 文件 。 通 过 这 
种 方式 ， 你 可 以 在 离开 家 的 时 候 让 家 用 电脑 开始 下 载 ， 这 些 〈 完 全 合法 
的 ， 根 本 不 是 盗版 的 ) 下 载 在 你 回 家 前 就 能 完成 。 


第 15 章 介绍 了 如 何 利 用 subprocess.Popen0 函 数 启 动 计 算 机 上 的 程 
序 。 人 例如， 下面 的 调用 将 启动 qBittorrent 程 序 ， 并 打开 一 个 torrent 文 件 : 

















qbProcess = subprocess.Popen(['C:\\Program Files (x86)\\qBittorrent\\ 
qbittorrent.exe', ‘shakespeare complete _works.torrent' ]) 








当然 ， 你 希望 该 程序 确保 邮件 来 自 于 你 自己 。 具 体 来 说 ， 你 可 能 硕 
望 该 邮件 包含 一 个 密码 ， 因 为 在 电子 邮件 中 伪造 “from” 地 址 ， 对 黑客 来 
说 很 容易 。 该 程序 应 该 删除 它 发 现 的 邮件 ， 这 样 就 不 会 每 次 检查 电子 邮 
件 账 户 时 重复 执行 命令 。 作 为 一 个 额外 的 功能 ， 让 程序 每 次 执行 命令 
时 ， 用 电子 邮件 或 短信 给 你 发 一 条 确认 信息 。 因 为 该 程序 运行 时 ， 你 不 
会 坐 在 运行 它 的 计算 机 前 面 ， 所 以 利用 日 志 函 数 《〈 参 见 第 10 章 ) 写 文 
本 文件 日 志 是 一 个 好 主意 ， 你 可 以 检查 古人 否 发 生 错 误 。 


qBittorrent〈 以 及 其 他 BitTorrent 应 用 程序 ) 有 一 个 功能 ， 下 载 完成 
后 ， 它 可 以 自动 退出 。 第 15 章 解释 了 如 何 用 Popen 对 象 的 wait() 方 法 ， 确 
定 启动 的 应 用 程序 何 时 已 经 退出 。wait0 方 法 调用 将 阻塞 ， 直 到 
E Seater eek 
元 成 。 


可 以 为 这 个 项 目 添 加 许多 可 能 的 功能 。 如 果 遇 到 困难 ， 可 以 从 
http://nostarch. com/automatestuff/ 下 载 这 个 程序 的 示例 实现 。 























第 17 章 ”操作 图 像 


如 果 你 有 一 人 台数 码 相 机 ， 或 者 只 是 将 照片 从 手机 上 传 到 Facebook， 
你 可 能 随时 都 会 个 然 遇 到 数字 图 像 文件 。 你 可 能 知道 如 何 使 用 基本 的 图 
形 软 件 ， 如 Microsoft Paint 或 Paintbrush， 甚 至 更 高 级 的 应 用 程序 ， 如 
Adobe Photoshop 。 但 是 ， 如 果 需 要 编辑 大 量 的 图 像 ， 手 工 编辑 可 能 是 漫 
长 、 枯 燥 的 工作 。 


请 用 Python。Pillow 是 一 个 第 三 方 Python 模块 ， 用 于 处 理 图 像 文 
件 。 该 模块 包含 一 些 函 数 ， 可 以 很 容易 地 裁剪 图 像 、 调 整 图 像 大 小 ， 以 
及 编辑 图 像 的 内 容 。 可 以 像 Microsoft Paint 或 Adobe Photoshop 一 样 处 理 
图 像 ， 有 了 这 种 能 力 ，Python 可 以 轻松 地 自动 编辑 成 千 上 万 的 图 像 。 


17.1 计算 机 图 像 基 础 


为 了 处 理 图 像 ， 你 需要 了 解 计算 机 如 何 处 理 图 像 中 的 颜色 和 坐标 的 
基本 知识 ， 以 及 如 何在 Pillow 中 处 理 颜 色 和 坐标 。 但 在 继续 探讨 之 前 ， 
先 要 安装 pillow 模 块 。 安 装 第 三 方 模块 请 见 附录 A。 


17.1.1 Zi AIRGBAIE. 


计算 机 程序 通常 将 图 像 中 的 颜色 表示 为 RGBA 值 。RGBA 值 是 一 组 
数字 ， 指 定 颜 色 中 的 红 、 绿 、 蓝 和 alpha( 透 明度) 的 值 。 这 些 值 是 从 
0 根本 没有 )〉 到 255《〈 最 高 ) 的 整数 。 这 些 RGBA 值 分 配给 单个 像素 ， 
像素 是 计算 机 屏幕 上 能 显示 一 种 颜色 的 最 小 点 (你 可 以 想到 ， 屏 幕 上 有 
JLB ABA) 。 像 素 的 RGB 设 置 准 确 地 告诉 它 应 该 显示 哪 种 颜色 的 色 
彩 。 图 像 也 有 一 个 alpha 值 ， 用 于 生成 RGBA 值 。 如 果 图 像 显 示 在 屏幕 
上 ， 遮 住 了 背景 图 像 或 桌面 墙纸 ，alpha 值 决定 了 “ 透 过 ”这 个 图 像 的 象 
素 ， 你 可 以 看 到 多 少 背景 。 


在 Pilow 中 ，RGBA 值 表示 为 四 个 整数 值 的 元 组 。 例 如 ， 红 色 表 示 
JJ (255, 0, 0, 255) 。 这 种 颜色 中 红 的 值 为 最 大 ， 没 有 绿 和 赣 ， 并 且 
alpha 值 最 大 ， 这 意味 着 它 完 全 不 透明 。 绿 色 表 示 为 (0，255，0， 
255) , Wt (0, 0, 255, 255) 。 和 白色 是 各 种 颜色 的 组 合 ， 即 








(255, 255, 255, 255) ， 而 黑色 没有 任何 颜色 ， 是 (0, 0, 0, 
255) 。 


如 果 颜 色 的 alpha 值 为 0， 不 论 RGB 值 是 什么 ， 该 颜色 是 不 可 见 的 。 
毕 竞 ， 不 可 见 的 红色 看 起 来 就 像 不 可 见 的 黑色 一 样 。 


Pillow 使 用 了 HTMEL 使 用 的 标准 颜色 名 称 。 表 17-1 列 出 了 一 些 标准 
颜色 的 名 称 和 值 。 

















表 17-1 标准 颜色 名 称 及 其 RGB 值 


名 称 RGBA 值 名 RGBA 值 
White (255, 255, 255, 255) DE (255, 0, 0, 255) 




















Gray (128, 128, 128, 255) (255, 255, 0, 255) 
Black (0, 0, 0, 255) (128, 0, 128, 255) 


Pillow 提 供 ImageColor.getcolor() 函 数 ， 所 以 你 不 必 记 住 想 用 的 颜色 
的 RGBA 值 。 该 冰 数 接受 一 个 颜色 名 称 字 符 串 作为 第 一 个 参数 ， 字 符 
串 'RGBA' 作 为 第 二 个 参数 ， 返 回 一 个 RGBA 元 组 。 


(0, 128, 0, 255) (0, 0, 255, 255) 





要 了 解 该 函数 的 工作 方式 ， 束 在 交互 式 环境 中 输入 以 下 代码 : 





@ >>> from PIL import ImageColor 


@ >>> ImageColor.getcolor('red', 'RGBA') 


(255，6，6，255) 
© >>> ImageColor.getcolor('RED', 'RGBA' ) 


(255, ©, @, 255) 
>>> ImageColor.getcolor('Black', '‘RGBA' ) 


(0, ©, ©, 255) 
>>> ImageColor.getcolor('chocolate', 'RGBA') 


(210, 105, 30, 255) 
>>> ImageColor.getcolor('CornflowerBlue', 'RGBA') 


(100, 149, 237, 255) 





首先 ， 你 需要 从 PIL 导 入 ImageColor 模 块 @ (不 是 从 Pillow， 稍 后 你 
就 会 明白 为 什么 ) 。 传 递 给 ImageColor.getcolor0 的 颜色 名 称 字 符 串 是 不 
区 分 大 小 写 的 ， 所 以 传 入 Ted'@ 和 传 入 'RED'@@ 将 得 到 同样 的 RGBA 元 
组 。 还 可 以 传递 更 多 的 不 各 见 的 颜色 名 称 ， 如 'chocolate' 和 'Cornflower 
Blue'。 


Pillow 文 持 大 量 的 颜色 名 称 ， 从 'aliceblue' 到 'whitesmoke'。 
在 http://nostarch. com/automatestuff/ 的 资源 中 ， 可 以 找到 超过 100 种 标准 
颜色 名 称 的 完整 列表 。 


17.1.2 坐标 和 Box 元 组 


图 像 像 素 用 x 和 y 坐 标 指定 ， 分 别 指定 像素 在 图 像 中 的 水 平和 垂直 位 
置 。 原 点 是 位 于 图 像 左 上 角 的 像素 ， 用 符号 0, 0 指定 。 第 一 个 0 表 
示 x 坐 标 ， 它 以 原点 处 为 0， 从 左 至 右 增加 。 第 二 个 0 表示 y 坐 标 ， 它 以 原 
点 处 为 0， 从 上 至 下 增加 。 这 值得 重复 一 下 ，y 坐 标 向 下 走 增加 ， 你 可 能 
还 记得 数学 课 上 使 用 的 y 坐 标 ， 与 此 相反 。 图 17-1 展 示 了 这 个 坐标 系统 
的 工作 方式 。 








”递增 





(27,26) 


图 17-1 27x26 的 图 像 的 x 和 y 坐 标 ， 某 种 古老 的 数据 存储 装置 
CMYK 和 RGB 者 色 | 


















































上 小 学 时 你 学 过 ， 混 合 红 、 黄 、 蓝 三 种 颜料 可 以 得 到 其 他 颜色 。 例 如 ， 可 以 混合 蓝 色 和 黄 
色 ， 得 到 绿色 颜料 。 这 就 是 所 谓 的 减 色 模型 ， 它 适用 于 染料 、 油 墨 和 颜料 。 这 就 是 为 什么 彩 
色 打印 机 有 的 CMYK 墨 盒 : Ff Ci) 、 品 红色 《红色 ) 、 黄 色 和 黑色 墨水 可 以 混合 在 一 
起 ， 形 成 任何 颜色 。 























然而 ， 光 的 物理 使 用 所 谓 的 加 色 模 型 。 如 果 组 合 光 《例如 由 计算 机 屏幕 发 出 的 光 ) ， 
红 、 绿 和 蓝光 可 以 组 合 形成 其 他 颜色 。 这 就 是 为 什么 在 计算 机 程序 中 使 用 RGB 值 表示 颜色 。 











许多 Pillow 函 数 和 方法 需要 一 个 矩形 元 组 参数 。 这 意味 着 Pillow 需 


要 一 个 四 个 整 坐标 的 元 组 ， 表 示 图 像 中 的 一 个 矩形 区 域 。 四 个 整数 授 顺 
序 分 别 是 : 
aeo A 
该 矩形 的 项 边 的 y 坐 标 。 
;有 有 :该 知 形 的 最 有 边 东 而 个 像素 的 x 虹 标 。 此 束 数 必须 比 左边 整 


数 大 。 
人 








注意 ， 该 矩形 包括 左 和 顶 坐 标 ， 直 到 但 不 包括 右 和 底 坐 标 。 例 如 ， 
和 矩形 元 组 (3, 1, 9, 6) 表示 图 17-2 中 黑色 和 矩形 的 所 有 像素 。 


0123456789 
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图 17-2 由 矩形 元 组 (3,1,9,6) 表示 的 区 域 


17.2 用 Pillow 操 作 图 像 


既然 知道 了 Pillow 中 颜色 和 坐标 的 工作 方式 ， 就 让 我 们 用 Pillow 
来 处 理 图 像 。 图 17-3 中 的 图 像 将 用 于 本 章 中 所 有 交互 式 环境 的 例子 。 
你 可 以 从 http://nostarch. com/automatestuff/ 下 载 它 。 
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图 17-3 我 的 猎 Zophie。 照 片上 看 起 来 增加 了 10 磅 (对 猫 来 说 很 多 ) 





将 图 像 文 件 Zophie.png 放 在 当前 工作 目录 中 ， 你 束 可 以 将 Zophie 的 
图 像 加 载 到 Python 中 ， 像 这 样 : 


>>> from PIL import Image 


>>> catIm = Image.open('zophie.png' ) 





要 加 载 图 像 ， 就 从 Pillow 导 入 Image 模 块 ， 并 调用 Image.open()， 传 
入 图 像 的 文件 名 。 然 后 ， 可 以 将 加 载 图 像 保 存在 CatIm 这 样 的 变量 中 。 
Pillow 的 模块 名 称 是 PIL， 这 保持 与 老 模 块 Python Imaging Library |] Ja 3R 
容 ， 这 就 是 为 什么 必须 from PIL import Image， 而 不 是 from Pillow import 
Image。 由 于 Pillow 的 创建 者 设计 Pillow 模 块 的 方式 ， 你 必须 使 用 from 


HA 


PIL import Image 形 式 的 import 语 句 ， 而 不 是 简单 地 import PIL. 


如 果 图 像 文件 不 在 当前 工作 目录 ， 束 调用 os.chdir0) 函 数 ， 将 工作 目 
录 变 为 包含 图 像 文件 的 文件 夹 。 











>>> import os 


>>> os.chdir('C:\\folder with image file') 


| 


Image.open0 函 数 的 返回 值 是 Image 对 象 数 据 类 型 ， 它 是 Pillow 将 图 
像 表 示 为 Python 值 的 方法 。 可 以 调用 Image.open0， 传 入 文件 名 字符 串 ， 
从 一 个 图 像 文件 〈 任 何 格式 ) 加 载 一 个 Image 对 象 。 通 过 save(0) 方 法 ， 对 
Image 对 象 的 所 有 更 改 都 可 以 保存 到 图 像 文 件 中 (也 是 任何 格式 ) 。 所 
有 的 旋转 、 调 整 大 小 、 裁 前 、 绘 画 和 其 他 图 像 操作 ， 都 通过 这 个 Image 
对 象 上 的 方法 调用 来 完成 。 

为 了 让 本 章 的 例子 更 简短 ， 我 假定 你 已 导入 了 Pillow 的 Image 模 块 ， 
并 将 Zophie 的 图 像 保 存在 变量 catIm 中 。 要 确保 zophie.png 文 件 在 当前 工 
作 目 录 中 ， 让 Image.open0 函 数 能 找到 它 。 否 则 ， 必 须 在 Image.openO) 的 
字符 串 参 数 中 指定 完整 的 绝对 路 径 。 
17.2.1 处 理 Image 数 据 类 型 


Image 对 象 有 一 些 有 用 的 属性 ， 提 供 了 加 载 的 图 像 文 件 的 基本 信 
Ih: 它 的 宽度 和 高 度 、 文 件 名 和 图 像 格 式 〈“ 如 JPEG、GIF 或 PNG) 。 


例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 

















>>> from PIL import Image 


>>> catIm = Image.open('zophie.png' ) 


>>> catIm.size 


@ (816, 1088) 


@ >>> width, height = catIm.size 


© >>> width 


816 
@ >>> height 


1088 
>>> catIm. filename 


"zophie.png' 
>>> catIm. format 


"PNG' 
>>> catIm.format_description 


"Portable network graphics' 
© >>> catIm.save('zophie. jpg’ ) 


| 


从 Zophie.png 得 到 一 个 Image 对 象 并 保存 在 catIm 中 后 ， 我 们 可 以 看 
到 该 对 象 的 size 属 性 是 一 个 元 组 ， 包 含 该 图 像 的 宽度 和 高 度 的 像素 数 
O. 我 们 可 以 将 元 组 中 的 值 赋 给 width 和 height 变 量 信 ， 以 便 分 别 访问 宽 
度 全 和 高 上 度 人 @。filename 属 性 描述 了 原始 文件 的 名 称 。format 和 
format_description 属 性 是 字符 串 ， 描 述 了 原始 文件 的 图 像 格式 
(format_description 比 较 详细 〉。 


最 后 ， 调 用 save() 方 法 ， 传 入 'zophie.jpg*， 将 新 图 像 以 文件 名 
zophie.jpg 保 存 到 硬盘 上 合 。Pillow 看 到 文件 扩展 名 是 jpg， 就 自动 使 用 
JPEG 图 像 格 式 来 保存 图 像 。 现 在 人 硬盘 上 应 该 有 两 个 图 像 ，zophie.png 和 
Zophie.jpg。 虽 然 这 些 文件 都 基于 相同 的 图 像 ， 但 它们 不 一 样 ， 因 为 格式 
不 同 。 


Pillow 还 提供 了 Image. 它 返 回 一 个 Image 对 象 。 这 很 像 
Image.open0)， 不 过 Image.new0O 返 回 的 对 象 表示 空白 的 图 像 。 
Image.new() 的 参数 如 下 : 


° n 将 颜色 模式 设置 为 RGBA (还 有 其 他 模式 ， 但 本 书 
没 

。 大小， 是 两 个 芭 数 元 组 ， 作为 新 图 像 的 宽度 和 高 度 。 

图 像 开 始 采 用 的 背景 颜色 ， 是 一 个 表示 RGBA 值 的 四 整数 元 组 。 你 

可 以 用 ImageColor.getcolor0 函 数 的 返回 值 作 为 这 个 参数 。 另 外 ， 

Image.new0) 也 支持 传 入 标准 颜色 名 称 的 字符 串 。 


例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 

















>>> from PIL import Image 


@ >>> im = Image.new('RGBA', (100, 200), ‘purple’ ) 


>>> im.save('purpleImage.png' ) 


@ >>> im2 = Image.new('RGBA', (20, 20)) 


>>> im2.save('transparentImage.png' ) 





这 里 ， 我 们 创建 了 一 个 Image 对 象 ， 它 有 100 像 素 宽 、200 像 素 高 ， 
带 有 紫色 背景 @。 人 然后 ， 该 图 像 存 入 文件 purpleImage.png 中 。 我 们 再 次 
调用 Image. new(); 创建 另 一 个 Image 对 象 ， 这 次 传 入 (20, 20) 作为 大 





d% 没有 指定 背景 色 @。 如 果 未 指定 颜色 参数 ， 默 认 的 颜色 是 不 可 见 的 
黑色 (0，0，0，0) ， 因 此 第 二 个 图 像 具 有 透明 背景 ， 我 们 将 这 个 
20x20 的 透明 正方 形 存 入 transparentImage.png。 


17.2.2 裁剪 图 片 


裁剪 图 像 是 指 在 图 像 内 选择 一 个 矩形 区 域 ， 并 删除 矩形 之 外 的 一 
切 。Image 对 象 的 crop(0) 方 法 接受 一 个 矩形 元 组 ， 返 回 一 个 Image 对 象 ， 
表示 裁剪 后 的 图 像 。 裁 剪 不 是 在 原 图 上 发 生 的 ， 也 就 是 说 ， 原 始 的 
Image 对 象 原封 不 动 ，crop(0) 方 法 返回 一 个 新 的 Image 对 象 。 请 记 住 ， 和 珑 
形 元 组 〈 这 里 就 是 要 裁剪 的 区 域 ) 包括 左 列 和 顶 行 的 像素 ， 直 至 但 不 包 
括 右 列 和 底 行 的 像素 。 


在 交互 式 环 境 中 输入 以 下 代码 : 





>>> croppedIm = catIm.crop((335，345，565，566)) 


>>> CroppedIm.save('cropped.png ) 





1x45 Bl) — ht magell R, EBA, te fEcroppedim 
中 ， 然 后 调用 croppedIm 的 save0， 将 裁剪 后 的 图 像 存 入 cropped.png。 新 
文件 cropped.png 从 原始 图 像 创建 ， 如 图 17-4 所 示 。 





图 17-4 新 图 像 只 有 原始 图 像 剪 裁 后 的 部 分 


17.2.3 复制 和 粘贴 图 像 到 其 他 图 像 


copy() 方 法 返回 一 个 新 的 Image 对象， 它 和 原来 的 Inage 对 象 具 有 一 
样 的 图 像 。 如 果 需 要 修改 图 像 ， 同 时 也 希望 保持 原 有 的 版 本 不 变 ， 这 非 
常 有 用 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 





>>> catIm = Image.open('zophie.png' ) 


>>> catCopyIm = catIm.copy() 





catIm 和 和 catCopyIm 变 量 包含 了 两 个 独立 的 Image 对 象 ， 它 们 的 图 像 
相同 。 既 然 catCopyIm 中 保存 了 一 个 Image 对 象 ， 你 可 以 随意 修改 
catCopyIm， 将 它 存 入 一 个 新 的 文件 名 ， 而 zophie.png 没 有 改变 。 例 如 ， 
让 我 们 尝试 用 paste0) 方 法 修改 catCopyIm。 


paste() 方 法 在 Image 对 象 调用 ， 将 男 一 个 图 像 粘贴 在 它 上 面 。 我 们 
继续 交互 式 环境 的 例子 ， 将 一 个 较 小 的 图 像 粘 贴 到 catCopyIm。 








>>> faceIm = catIm.crop((335, 345, 565, 56@)) 


>>> faceIm.size 


(230, 215) 
>>> catCopyIm.paste(faceIm, (0, @)) 


>>> catCopyIm.paste(faceIm, (400, 500)) 


>>> catCopyIm.save('pasted.png' ) 


首先 我 们 同 crop0 传 入 一 个 矩形 元 组 ， 指 定 zophie.png 中 的 一 个 矩形 
区 域 ， 包 含 Zophie 的 脸 。 这 将 创建 一 个 Image 对 象 ， 表 示 230x215 的 剪裁 
区 域 ， 保 存在 faceIm 中 。 现 在 ， 我 们 可 以 将 faceIm 粘 贴 到 catCopyIm。 
paste() 方 法 有 两 个 参数 : 一 个 “ 源 ”TImage 对 象 ， 一 个 包含 x 和 y 坐 标的 元 
组 ， 指明 源 jmage 对 象 亲 由 到 主 Image 对 象 时 大 上 角 的 位 置 ， 这 里 ， 我 们 
在 catCopyIm 上 两 次 调用 paste()， 第 一 次 传 入 (0, 0)， 第 二 次 传 入 (400， 
500)。 这 将 faceIm 两 次 粘贴 到 catCopyIm: 一 次 faceIm 的 左上 角 在 (0, 0), 
一 次 faceIm 的 左上 和 角 在 (400, 500)。 最 后 ， 我 们 将 修改 后 的 catCopyIm 存 
入 pasted.png。pasted.png 如 图 17-5 所 示 。 








图 17-5 Zophie 猫 ， 包 含 两 次 粘贴 她 的 脸 

















尽管 名 称 是 copy0 和 paste0， 但 Pillow 中 的 方法 不 使 用 计算 机 的 剪贴 板 。 

请 注意 ，paste(0) 方 法 在 原 图 上 修改 它 的 Image 对 象 ， 它 不 会 返回 粘 
贴 后 图 像 的 Image 对 象 。 如 果 想 调用 paste0， 但 还 要 保持 原始 图 像 的 未 
修改 版 本 ， 就 需要 先 复制 图 像 ， 然 后 在 副本 上 调用 paste()。 


假定 要 用 Zophie 的 头 平 铺 整个 图 像 ， 如 图 17-6 所 示 。 可 以 用 两 个 for 


人 循环 来 实现 这 个 效果 。 继 续 交 互 式 环境 的 例子 ， 输 入 以 下 代码 : 





>>> catImWidth, catImHeight = catIm.size 


>>> faceImWidth, faceImHeight = faceIm.size 


@ >>> catCopyTwo = catIm.copy() 


@ >>> for left in range(@, catImWidth, faceImWidth): 


© for top in range(@, catImHeight, faceImHeight): 


print(left, top) 


catCopyTwo.paste(faceIm, (left, top)) 


© 6 
© 215 
© 430 


230 215 
--snip 


690 860 
690 1075 
>>> catCopyTwo.save('tiled.png' ) 





这 里 ， 我 们 将 catIm 的 高 度 的 宽度 保存 在 catImWidth 和 catImHeight 
中 。 在 @， 我 们 得 到 了 catIm 的 副本 ， 并 保存 在 catCopyTwo。 既 然 有 了 
一 个 副本 可 以 粘贴 ， 我 们 就 开始 循环 ， 将 faceIm 粘 贴 到 catCopyTwo。 外 
层 for 循 环 的 left 变 量 从 0 开始 ， 增 量 是 faceImWidth (8230) 信 。 内 层 for 
循环 的 top 变 量 从 0 开始 ， 增 量 是 faceImHeight 〈 即 215) @. KERER 
for 循 环 生 成 了 left 和 top 的 值 ， 将 faceIm 图 像 按 照 网 格 粘贴 到 Image 对 象 





catCopyTwo， 如 图 17-6 所 示 。 为 了 看 到 花 套 循环 的 工作 ， 我 们 打印 了 
left 和 top。 粘 贴 完成 后 ， 我 们 将 修改 后 的 catCopyTwo 保 存 到 tiled.png。 








图 17-6 钥 套 的 for 循 环 与 paste()， 用 于 复制 猫 脸 (可 以 称 之 为 dupli-cat) 


17.2.4 调整 图 像 大 小 


resize() 方 法 在 Image 对 象 上 上 调用， 返回 指定 宽度 和 高 度 的 一 个 新 
Image 对 象 。 它 接受 两 个 整数 的 元 组 作为 参数 ， 表 示 返 回 网 像 的 新 高 度 
和 和 宽度。 在 交互 式 环境 中 输入 以 下 代码 : 








@ >>> width, height = catIm.size 


@ >>> quartersizedIm = catIm.resize((int(width / 2), int(height / 2))) 


>>> quartersizedIm.save('quartersized.png' ) 


© >>> svelteIm = catIm.resize((width, height + 300)) 


>>> svelteIm.save('svelte.png' ) 





这 里 ， 我 们 将 catIm.size 元 组 中 的 两 个 值 赋 给 变量 width 和 height@. 
使 用 width 和 height， 而 不 是 catIm.size[0] 和 catIm.size[1]， 让 接 下 来 的 代 
码 更 易 读 。 


第 一 个 resize0 调 用 传 入 int(width / 2) 作为 新 宽度 ，int(height / 2) 作 为 
新 高 度 信 ， 所 以 resize0 返 回 的 Image 对 象 具 有 原始 图 像 的 一 半 长 度 和 宽 
度 ， 是 原始 图 像 大 小 的 四 分 之 一 。resize() 方 法 的 元 组 参数 中 只 允许 整 
数 ， 这 就 是 为 什么 需要 用 intO 调 用 对 两 个 除 以 2 的 值 取 整 。 


这 个 大 小 调整 保持 了 相同 比例 的 宽度 和 高 度 。 但 传 入 resize0 的 新 宽 
度 和 高 度 不 必 与 原始 图 像 成 比例 。svelteIm 变 量 保存 了 一 个 Image 对 象 ， 
宽度 与 原始 图 像 相 同 ， 但 高 度 增 加 了 300 像 素 @， 让 Zophie 显 得 更 苗 


条 。 


请 注意 ，resize() 方 法 不 会 在 原 图 上 修改 Image 对 象 ， 而 是 返回 一 人 1 
新 的 Image 对 象 。 


炸 贴 透明 像素 

通常 透明 像素 像 白色 像素 一 样 粘贴 。 如 果 要 粘贴 图 像 有 透明 像素 ， 就 将 该 图 像 作为 第 三 个 参 
数 传 入 ， 这 样 就 不 会 粘贴 一 个 不 透明 的 矩形 。 这 个 第 三 参数 是 “ 遮 音 "Image 对 象 。 遮 单 是 一 个 
Image 对 象 ， 其 中 alpha 值 是 有 效 的 ， 但 红 、 绿 、 蓝 值 将 被 忽略 。 遮 章 告 诉 paste(0) 函 数 哪些 像素 
应 该 复制 ， 哪 些 应 该 保持 透明 。 遮 量 的 高 级 用 法 超出 了 本 书 的 范围 ， 但 如 果 你 想 粘 贴 有 透明 
像素 的 图 像 ， 就 再 传 入 该 Image 对 象 作为 第 三 个 参数 。 


17.2.5 旋转 和 翻转 图 像 


图 像 可 以 用 rotate0) 方 法 旋转 ， 该 方法 返回 旋转 后 的 新 Image 对 象 ， 
并 保持 原始 Image 对 象 不 变 。rotate() 的 参数 是 一 个 整数 或 浮 点 数 ， 表 示 
图 像 逆 时 针 旋 转 的 度数 。 在 交互 式 环境 中 输入 以 下 代码 : 





















































>>> catIm.rotate(96) .save(' rotated96.png ) 


>>> catIm.rotate(186) .save('rotated186.png ) 


>>> catIm.rotate(276) .save('rotated276.png ) 





注意 ， 可 以 连续 调用 方法 ， 对 rotate0 返 回 的 Image 对 象 直接 调用 
save()。 第 一 个 rotate0 和 saveO) 调 用 得 到 一 个 道 时 针 旋转 90 度 的 新 Image 
对 象 ， 并 将 旋转 后 的 图 像 存 入 rotated90.png。 第 二 和 第 三 个 调用 做 的 事 
情 一 样 ， 但 旋转 了 180 度 和 270 度 。 结 果 如 图 17-7 所 示 。 





Li 


注意 ， 当 图 像 旋转 90 度 或 270 度 时 ， 宽 度 和 高 度 会 变化 。 如 果 旋 转 
其 他 角度 ， 图 像 的 原始 尺寸 会 保持 。 在 Windows 上 ， 使 用 黑色 的 背景 3 
填补 旋转 造成 的 缝 际 ， 如 图 17-8 所 示 。 在 OS X 上 ， 使 用 透明 的 像素 来 填 
补 颖 际 。rotate0 方 法 有 一 个 可 选 的 expand 关 键 字 参数 ， 如 果 设 置 为 
True， 就 会 放大 图 像 的 尺寸 ， 以 适应 整个 旋转 后 的 新 图 像 。 例 如 ， 在 交 
互 式 坏 境 中 输入 以 下 代码 : 








图 17-7 原始 图 像 〈 左 ) 和 逆 时 针 旋 转 90 度 、180 度 和 270 度 的 图 像 





>>> catIm.rotate(6).save('rotated6.png' ) 


>>> catIm.rotate(6, expand=True).save('rotated6_expanded.png' ) 





第 一 次 调用 将 图 像 旋 转 6 度 ， 并 存 入 rotate.png 参见 图 17-8 的 左边 
的 图 像 》。 第 二 次 调用 将 图 像 旋转 6 上 度 ，expand 设 置 为 True， 并 存 入 
rotate6_expanded.png (参见 图 17-8 的 右 侧 的 图 像 〉。 





图 17-8 图 像 普通 旋转 6 度 CFE) ， 以 及 使 用 expand=True (A ) 


利用 transpose() 方 法 ， 还 可 以 得 到 图 像 的 “镜像 翻转 >”。 必 须 回 
transpose() 方 法 传 入 Image.FLIP LEFT_RIGHT 或 
Image.FLIP_ TOP_BOTTOM。 在 交互 式 环境 中 输入 以 下 代码 : 








>>> catIm.transpose(Image.FLIP_LEFT_RIGHT).save('horizontal_flip.png' ) 


>>> catIm.transpose(Image.FLIP_TOP_BOTTOM).save('vertical_flip.png' ) 





像 rotate() 一 样 ，transpose() 会 创建 一 个 新 Image 对 象 。 这 里 我 们 传 入 
Image.FLIP_ LEFT_RIGHT， 让 图 像 水 平 翻转 ， 然 后 存 入 
horizontal_flip.png。 要 垂直 翻转 图 像 ， 传 入 
Image.FLIP_ TOP_BOTTOM， 并 存 入 vertical_flip.png。 结 果 如 图 17-9 所 
ZN o 





图 17-9 RRR CAL), KPR CP), SEEM CAD) 


17.2.6 FOL 


单个 像素 的 颜色 可 以 通过 getpixel0 和 putpixel0) 方 法 取得 和 设置 。 它 
们 都 接受 一 个 元 组 ， 表 示 像 素 的 x 和 y 坐 标 。putpixel() 方 法 还 接受 一 个 元 
组 ， 作 为 该 像素 的 颜色 。 这 个 颜色 参数 是 四 整数 RGBA 元 组 或 三 整数 
RGB 元 组 。 在 交互 式 环境 中 输入 以 下 代码 : 





@ >>> im = Image.new('RGBA'，(166，166)) 


@ >>> im.getpixel((@, @)) 


(0, ©, ©, @) 


© >>> for x in range(100): 


for y in range(5@): 


e im.putpixel((x, y), (210, 210, 210)) 


>>> from PIL import ImageColor 


© >>> for x in range(1@@): 


for y in range(50, 100): 


© im.putpixel((x, y), ImageColor.getcolor('darkgray', 'RGBA')) 


>>> im.getpixel((6，6)) 


(210, 210, 210, 255) 


>>> im.getpixel((@, 50)) 


(169, 169, 169, 255) 


>>> im.save('putPixel.png' ) 





在 @， 我 们 得 到 一 个 新 图 像 ， 这 是 一 个 100x100 的 透明 正方 形 。 对 
一 些 坐标 调用 getPixel0) 将 返回 〈0，0，0，0) ， 因 为 图 像 是 透明 的 从。 
要 给 几 像 中 的 像素 上 色 ， 我 们 可 以 使 用 内 套 的 for 循 环 ， 遍 历 图 像 上 半 部 
分 的 所 有 像素 人 @， 用 putpixel0 设 置 每 个 像素 的 颜色 人 @。 这 里 我 们 癌 
putpixel0 传 入 RGB 元 组 (210, 210, 210) ， 即 浅 灰 色 。 


假定 我 们 希望 图 像 下 半 部 分 是 暗 灰 色 ， 但 不 知道 深 灰 色 的 RGB 元 
组 。putpixel0 方 法 不 接受 'darkgray' 这 样 的 标准 颜色 名 称 ， 所 以 必须 使 用 
ImageColor.getcolor0 来 获得 'darkgray' 的 颜色 元 组 。 循 环 遍 历 图 像 的 下 半 
部 分 像素 加 ， 辣 putpixel0 传 入 ImageColor. getcolor() 的 返回 值 @， 你 现在 
应 该 得 到 一 个 图 像 ， 上 半 部 分 是 浅 灰 色 ， 下 半 部 分 是 深 灰 色 ， 如 图 17- 
10 所 示 。 可 以 对 一 些 坐 标 调用 getPixel0， 确 认 指 定 像素 的 颜色 符合 你 的 
期 望 。 最 后 ， 将 图 像 存 入 putPixel.png。 


图 17-10 putPixel.png 中 的 图 像 


当然 ， 在 图 像 上 一 次 绘制 一 个 像素 不 是 很 方便 。 如 果 需 要 绘制 形 
状 ， 束 使 用 本 章 稍 后 介绍 的 InageDraw 函 数 。 


17.3 项 目 : 添加 徽标 


假设 你 有 一 项 无 聊 的 工作 ， 要 调整 数 干 张 图 片 的 大 小 ， 并 在 每 张 图 
片 的 角 上 增加 一 个 小 徽标 水 印 。 使 用 基本 的 网 形 程 序 ， 如 Paintbrush 或 
Paint， 完 成 这 项 工作 需要 很 长 时 间 。 像 Photoshop 这 样 神奇 的 应 用 程序 
人 


假定 图 17-11 是 要 添加 到 每 个 图 像 右 下 角 的 标识 : 带 有 白色 边框 的 
黑 猫 图 标 ， 图 像 的 其 余部 分 是 透明 的 。 














图 17-11 添加 到 图 像 中 的 徽标 


总 的 来 说 ， 程 序 应 该 完成 下 面 的 事 : 


载 入 徽标 图 像 。 

循环 遍历 工作 目标 中 的 所 有 .png 和 .jpg 文 件 。 

检查 图 片 是 否 宽 于 或 高 于 300 像 素 。 

如 果 是 ， 将 宽度 或 高 度 中 较 大 的 一 个 减 小 为 300 像 素 ， 并 按 比 例 缩 
小 的 另 一 维度 。 

在 角 上 粘贴 徽标 图 像 。 

将 改变 的 图 像 存 入 另 一 个 文件 夹 。 


这 意味 着 代码 需要 做 到 以 下 几 点 : 


打开 catlogo.png 文 件 作 为 Image 对 象 。 

循环 遍历 os.listdir('.) 返 回 的 字符 串 。 

通过 size 属 性 取得 图 像 的 宽度 和 高 度 。 

计算 调整 后 图 像 的 新 高 度 和 宽度 。 

调用 resize() 方 法 来 调整 图 像 大 小 。 

调用 paste0) 方 法 来 粘贴 徽标 。 

调用 save(0) 方 法 保存 更 改 ， 使 用 原来 的 文件 名 。 











第 1 步 : 打开 微 标 图 像 


针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 
保存 为 resizeAndAddLogo.py: 


#! python3 

# resizeAndAddLogo.py - Resizes all images in current working directory t 
# in a 300x300 square, and adds catlogo.png to the lower-right corner. 
import os 

from PIL import Image 


SQUARE_FIT_SIZE = 300 
LOGO_FILENAME = ‘catlogo.png' 


logoIm = Image.open(LOGO_FILENAME ) 
logoWidth, logoHeight = logoIm.size 


# TODO: Loop over all files in the working directory. 


# TODO: Check if image needs to be resized. 


# TODO: Calculate the new width and height to resize to. 


# TODO: Resize the image. 
# TODO: Add the logo. 


# TODO: Save changes. 





在 程序 开始 时 设置 SQUARE FIT_SIZE@ 和 LOGO FILENAME@ 常 
量 ， 这 让 程序 以 后 更 容易 修改 。 假 定 你 要 添加 的 徽标 不 是 猫 图 标 ， 或 者 
假定 将 输出 图 像 的 最 大 大 小 要 减少 的 值 不 是 300 像 素 。 有 了 程序 开始 时 
定义 的 这 些 常量 ， 你 可 以 打开 代码 ， 修 改 一 下 这 些 值 ， 就 大功告成 了 
(或 者 你 可 以 让 这 些 常量 的 值 从 命令 行 参数 获得 ) 。 没 有 这 些 常 数 ， 就 
要 在 代码 中 寻找 所 有 的 300 和 'catlogo.png'， 将 它们 蔡 换 新 项 目的 值 。 总 
之 ， 使 用 常量 使 程序 更 加 通用 。 


徽标 Image 对 象 从 Image.open0 返 回合。 为 了 增强 可 读 性 ，logoWidth 
和 logoHeight 被 赋予 logoIm.size 中 的 值 @。 








该 程序 的 其 余部 分 目前 是 TODO 注 释 ， 说 明了 程序 的 骨架 。 
第 2 步 : 遇 历 所 有 文件 并 打开 网 像 
现在 ， 需 要 找到 当前 工作 目录 中 的 每 个 PNG 文 件 和 .jpg 文 件 。 请 注 


意 ， 你 不 希望 将 徽标 图 像 添 加 到 徽标 图 像 本 身 ， 所 以 程序 应 该 跳 过 所 有 
像 LOGO_FILENAME 这 样 的 图 像 文 件 名 。 在 程序 中 添加 以 下 代码 : 





#! python3 
# resizeAndAddLogo.py - Resizes all images in current working directory t 
# in a 300x300 square, and adds catlogo.png to the lower-right corner. 


import os 
from PIL import Image 


--snip 


os.makedirs('withLogo', exist_ok=True) 
# Loop over all files in the working directory. 


@ for filename in os.listdir('.'): 


@ if not (filename.endswith('.png') or filename.endswith('.jpg')) \ 


or filename == LOGO FILENAME: 


© continue # skip non-image files and the logo file itself 


@ im = Image.open(filename) 


width, height = im.size 


--snip 





首先 ，os.makedirs() 调 用 创建 了 一 个 文件 夹 withLogo， 用 于 保存 完 








成 的 、 带 有 徽标 的 图 像 ， 而 不 是 履 盖 原 始 图 像 文件 。 关 键 字 参数 
exist_ok=True 将 防止 0s.makedirs() 在 withLogo 已 存在 时 抛 出 异常 。 在 用 
os.listdir('.") 遍 历 工作 目录 中 的 所 有 文件 时 @， 较 长 的 if 语 句 @ 检 查 每 个 
filename 是 否 以 .png 或 jpg 结束。 如 果 不 是 ， 或 者 该 文件 是 徽标 图 像 本 
身 ， 循 环 就 跳 过 它 ， 使 用 continue@ 去 处 理 下 一 个 文件 。 如 果 科 ename 确 
实 以 .png' 或 .jpg' 结 束 《〈 而 且 不 是 徽标 文件 ) ， 可 以 将 它 打开 为 一 个 
Image R®, Ff Kc width Fheight. 


第 3 步 : 调整 图 像 的 大 小 


只 在 有 宽 或 高 超过 SQUARE_FIT_SIZE 时 (在 这 个 例子 中 ， 是 300 像 

















素 ) ， 该 程序 才 应 该 调整 图 像 的 大 小 ， 所 以 将 所 有 大 小 调整 的 代码 放 在 
一 个 检查 width 和 height 变 量 的 让 语句 内 。 在 程序 中 添加 以 下 代码 : 








#! python3 


# resizeAndAddLogo.py - Resizes all images in current working directory t 
# in a 300x300 square, and adds catlogo.png to the lower-right corner. 


import os 
from PIL import Image 


--snip 


# Check if image needs to be resized. 


if width > SQUARE_FIT_SIZE and height > SQUARE_FIT_SIZE: 


# Calculate the new width and height to resize to. 


if width > height: 


@ height = int((SQUARE_FIT_SIZE / width) * height) 


width = SQUARE_FIT_SIZE 


else: 


width = int((SQUARE_FIT SIZE / height) * width) 


height = SQUARE_FIT_SIZE 


# Resize the image. 


print('Resizing %s...' % (filename) ) 


im = im.resize((width, height) ) 


--snip 





如 果 图 像 确实 需要 调整 大 小 ， 就 需要 弄 清 楚 它 是 太 宽 还 是 太 高 。 如 
果 width 大 于 height， 则 高 度 应 该 根据 宽度 同比 例 减 小 @。 这 个 比例 是 当 
前 宽度 除 以 SQUARE_ FIT_SIZE 的 值 。 新 的 高 度 值 是 这 个 比例 乘 以 当前 
高 度 值 。 由 于 除法 运算 符 返 回 一 个 浮 点 值 ， 而 resize() 要 求 的 尺寸 是 整 
数 ， 所 以 要 记得 将 结果 用 int() 函 数 转换 成 整数 。 最 后 ， 新 的 width 值 束 设 
置 为 SQUARE FIT_SIZE。 


如 末 height 大 于 或 等 于 width《〈 这 两 种 情况 都 在 else 子 句 中 处 理 ) ， 
那么 进行 同样 的 计算 ， 只 是 交换 height 和 width 变 量 的 位 置 @。 


在 width 和 height 包 含 新 图 像 尺 寸 后 ， 将 它们 传 入 resize0 方 法 ， 并 返 
回 的 Image 对象 保 存在 im 中 个 。 
第 4 步 : 添加 徽标 ， 并 保存 更 改 


不 论 图 像 是 否 调整 大 小 ， 徽 标 仍 应 粘贴 到 右 下 角 。 徽 标 粘贴 的 确切 
位 置 取决 于 图 像 的 大 小 和 徽标 的 大 小 。 图 17-12 展示 了 如 何 计算 粘贴 的 
位 置 。 粘 贴 徽标 的 左 坐 标 将 是 图 像 客 度 减 去 微 标 宽 度 ， 顶 坐标 将 是 图 像 
高 度 减 去 徽标 高 度 。 











徽标 











图 17-12 在 右 下 角 放 置 徽标 的 左 坐标 和 项 坐标 ， 应 该 是 图 像 的 宽度 /高 度 减 去 徽标 宽度 /高 度 


代码 将 徽标 粘贴 到 图 像 中 后 ， 应 保存 修改 后 的 Image 对 象 。 将 以 下 
代码 添加 到 程 友 中 : 





#! python3 


# resizeAndAddLogo.py - Resizes all images in current working directory t 
# in a 300x300 square, and adds catlogo.png to the lower-right corner. 


import os 
from PIL import Image 
--snip 


# Check if image needs to be resized. 


--snip 


# Add the logo. 


e print( ‘Adding logo to %s...' % (filename) ) 
@ im.paste(logoIm, (width - logoWidth, height - logoHeight), logoIm) 


# Save changes. 


3) im.save(os.path.join( 'withLogo', filename) ) 





新 的 代码 输出 一 条 消息 ， 告 诉 用 户 徽标 已 被 加 入 @， 将 logoIm 粘 贴 





到 im 中 计算 的 坐标 处 @@， 并 将 变更 保存 到 withLogo 目 录 的 和 他 ename 中 





命 。 如 果 运 行 这 个 程序 ，zophie.png 文 件 是 工作 目录 中 唯一 的 图 像 ， 输 
出 会 是 这 样 : 


Resizing zophie.png... 
Adding logo to zophie.png... 





图 像 zophie. png 将 变 成 225x300 像 素 的 图 像 如 图 17-13 所 示 。 请 记 
住 ， 如 果 没 有 传 入 logoIm 作 为 第 三 个 参数 ，paste() 方 法 不 会 粘贴 透明 的 
这 个 程序 可 以 在 短 短 几 分 钟 内 自动 调整 几 百 幅 图 像 ， 并 “加 上 徽 
IN” o 


- 





图 17-13 图 像 zophie.png 调 整 了 大 小 并 加 上 了 微 标 〈 左 〉。 如 果 忘 记 了 第 三 个 参数 ， 








徽标 中 透明 的 像素 将 被 复制 为 不 透明 的 白色 像素 Ai) 


第 5 步 : 类 似 程序 的 想法 








能 够 批量 合成 图 像 或 修改 图 像 大 小 ， 在 许多 应 用 中 都 有 用 。 可 以 编 
写 类 似 的 程序 ， 完 成 以 下 任务 : 


。 为 图 像 添 加 文字 或 网 站 URL。 

。 为 图 像 添加 时 间 惟 。 

。 根据 图 像 的 大 小 ， 将 图 像 复制 或 移动 到 不 同 的 文件 夹 中 。 
。 为 图 像 添 加 一 个 几乎 透明 的 水 印 ， 防 止 他 人 复制 。 


17.4 在 图 像 上 绘画 


如 果 需 要 在 图 像 上 画 线 、 和 矩形 、 圆 形 或 其 他 简单 形状 ， 就 用 Pillow 
的 ImageDraw 模 块 。 在 交互 式 环境 中 输入 以 下 代码 : 











>>> from PIL import Image, ImageDraw 


>>> im = Image.new('RGBA', (200, 200), 'white') 


>>> draw = ImageDraw.Draw(im) 





首先 ， 我 们 导入 Image 和 ImageDraw。 然 后 ， 创 建 一 个 新 的 图 像 ， 
在 这 个 例子 中 ， 是 200x200 的 白色 图 像 ， 将 这 个 Image 对 象 保存 在 Im 中 。 
我 们 将 该 Image 对 象 传 入 ImageDraw.Draw() 函 数 ， 得 到 一 个 ImageDraw 对 
象 。 这 个 对 象 有 一 些 方法 ， 可 以 在 Image 对 象 上 绘制 形状 和 文字 。 将 
ImageDraw 对 象 保 存在 变量 draw 中 ， 这 样 束 能 在 接 下 来 的 例子 中 方便 地 








使 用 它 。 
17.4.1 绘制 形状 


下 面 的 ImageDraw 方 法 在 图 像 上 绘制 各 种 形状 。 这 些 方法 的 们 和 
outline 参 数 是 可 选 的 ， 如 果 未 指定 ， 默 认为 白色 。 


4 





point(xy, fil) 方 法 绘制 单个 像素 。xy 人 参数 表示 要 男 的 点 的 列表 。 访 
列表 可 以 是 x 和 y 坐 标的 元 组 的 列表 ， 例 如 [(x, y), (%, y), .…]， 或 是 没有 元 
组 的 x 和 y 华 标的 列表 ， 例 如 [x1, y1, x2, y2, ...]。fi 参 数 是 点 的 颜色 ， 要 
么 是 一 个 RGBA 元 组 ， 要 么 是 颜色 名 称 的 字符 串 ， 如 Ted'。 寺 参数 是 可 
选 的 。 


线 


line(xy, fill, widthb) 方 法 绘制 一 条 线 或 一 系列 的 线 。xy 要 么 是 一 个 元 
组 的 列表 ， 例 如 [(x y), Oy), …]， 要 么 是 一 个 整数 列表 ， 例 如 [x1, yl, 
x2, y2, .…]。 每 个 点 都 是 正在 绘制 的 线 上 的 一 个 连接 点 。 可 选 的 季 ] 参 数 
是 线 的 颜色 ， 是 一 个 RGBA 元 组 或 颜色 名 称 。 可 选 的 width 参数 是 线 的 宽 
度 ， 如 果 未 指定 ， 缺 省 值 为 1。 


定形 


rectangle(xy, fill, outline) 方 法 绘制 一 个 矩形 。xvy 参 数 是 一 个 矩形 元 
组 ， 形 式 为 (left, top, right, bottom)。left 和 top 值 指定 了 和 矩形 左上 角 的 x 和 y 
坐标 ，right 和 bottom 指 定 了 和 矩形 的 右 下 角 。 可 选 的 fi 参数 是 颜色 ， 将 填 
充 该 矩形 的 内 部 。 可 选 的 outline 参 数 是 矩形 轮廓 的 颜色 。 


tgs 

ellipse(xy, fill, outline) 77 AR till — ABH. HOR ASG a EY E EA PE 
FF, BITE ZHI TA. xy ABe “MEIC 7c 2H (left, top, right, 
bottom), EXAN IE aa AMARE. FY ee A A oe LAA PN K 
色 ， 可 选 的 outline 参 数 是 椭圆 轮廓 的 颜色 。 


多 边 形 








polygon(xy, fill, outline) 方 法 绘制 任意 的 多 边 形 。xy 参 数 是 一 个 元 组 
列表 ， 例 如 [(x, y), (x y) …]， 或 者 是 一 个 整数 列表 ， 例 如 [x1, y1, x2, y2, 
..]， 表 示 多 边 形 边 的 连接 点 。 最 后 一 对 坐标 将 自动 连接 到 第 一 对 坐标 。 
H 的 全 参数 是 多 边 形 内 部 的 颜色 ， 可 选 的 outline 参 数 是 多 边 形 轮廓 的 
E 。 


绘制 示例 


在 交互 式 环境 中 输入 以 下 代码 : 





>>> from PIL import Image, ImageDraw 


>>> im = Image.new('RGBA', (200, 200), ‘white’ ) 


>>> draw = ImageDraw.Draw(im) 


@ >>> draw.line([(®, ©), (199, ©), (199, 199), (©, 199), (©, @)], fill='bla 


@ >>> draw.rectangle((2@, 30, 60, 60), fill='blue') 


© >>> draw.ellipse((120, 30, 160, 60), fill='red') 


@ >>> draw.polygon(((57, 87), (79, 62), (94, 85), (120, 90), (103, 113)), 


fi11=' brown’ ) 


© >>> for i in range(10@, 200, 10): 


draw.line([(i, ©), (200, i - 100)], fill='green' ) 


>>> im.save('drawing.png' ) 





为 200x200 的 白色 图 像 生成 Image 对 象 后 ， 将 它 传 入 
ImageDraw.Draw()， 获 得 ImageDraw 对 象 ， 将 它 保存 在 draw 中 ， 可 以 对 
draw 调 用 绘图 方法 。 这 里 ， 我 们 在 图 像 边 缘 画 上 罕 的 黑色 轮廓 @; 一 个 
REEK, ZEAE (20, 30) ， 右 下 角 在 (60, 60) O; 一 个 红色 的 


Halal, FH (120,30) 到 〈160, 60〉 的 矩形 来 定义 @; 一 个 棕色 的 多 边 
形 ， 有 五 个 顶点 @@， 以 及 一 些 绿 线 的 图 案 ， 用 for 循 环 绘制 @@。 得 到 的 
drawing.png 文 件 如 图 17-14 所 示 。 





图 17-14 得 到 的 图 像 drawing.png 


ImageDraw 对 象 还 有 男 外 几 个 绘制 形状 的 方法 。 完 整 的 文档 
在 http://pillow. readthedocs.org/en/latest/reference/ImageDraw.html 。 


17.4.2 绘制 文本 


ImageDraw 对 象 还 有 text() 方 法 ， 用 于 在 图 像 上 绘制 文本 。text() 方 法 
有 4 个 参数 : xy、text、fil 和 font。 


。 XxXy 参 数 是 两 个 整数 的 元 组 ， 指 定 文本 区 域 的 左上 角 。 

。 text 参 数 是 想 写 入 的 文本 字符 串 。 

。 可 选 参数 fi 是 文本 的 颜色 。 

e 可 选 参数 font 是 一 个 ImageFont 对 象 ， 用 于 设置 文本 的 字体 和 大 小 。 
下 一 节 中 更 详细 地 介绍 了 这 个 参数 。 


因为 通常 很 难 预 先知 道 一 块 文本 在 给 定 的 字体 下 的 大 小 ， 所 以 
ImageDraw 模 块 也 提供 了 textsize() 方 法 。 它 的 第 一 个 参数 是 要 测量 的 文 








本 字符 串 ， 第 二 个 参数 是 可 选 的 ImageFont 对 象 。textsize() 方 法 返回 一 个 
两 整数 元 组 ， 表 示 如 果 以 指定 的 字体 写 入 图 像 ， 文 本 的 宽度 和 高 度 。 可 
以 利用 这 个 宽度 和 高 度 ， 帮 助 你 精确 计算 文本 放 在 图 像 上 的 位 置 。 


textO 的 前 三 个 参数 非常 简单 。 在 用 textO 癌 图 像 绘制 文本 之 前 ， 让 
我 们 来 看 看 可 选 的 第 四 个 参数 ， 即 ImageFont 对 象 。 


text() 和 textsize() 都 接受 可 选 的 ImageFont 对 象 ， 作 为 最 后 一 个 参 
数 。 要 创建 这 种 对 象 ， 先 执行 以 下 命令 : 














>>> from PIL import ImageFont 





既然 已 经 导入 Pillow 的 ImageFont 模 块 ， 就 可 以 调用 
ImageFont.truetype0O 函 数 ， 它 有 两 个 参数 。 第 一 个 参数 是 字符 串 ， 表 示 
字体 的 TrueType 文 件 ， 这 是 人 硬盘 上 实际 的 字体 文件 。TrueType 字 体 文件 
上 共有 .ITTF 文件 扩展 名 ， 通 常 可 以 在 以 下 文件 夹 中 找到 : 


。 在 Windows 上 : C:\Windows\Fonts。 
。 在 OS X_E: /Library/Fonts and /System/Library/Fonts。 
e 在 Linux 上 : /usr/share/fonts/truetype. 


实际 上 并 不 需要 输入 这 些 路 径 作 为 TrueType 字 体 文 件 的 字符 串 的 一 
部 分 ， 因 为 Python 知道 自动 在 这 些 目录 中 搜索 字体 。 如 果 无 法 找到 指定 
的 字体 ，Python 会 显示 错误 。 


ImageFont.truetype() 的 第 二 个 参数 是 一 个 整数 ， 表 示 字 体 大 小 的 点 
BR MAREE) 。 请 记 住 ，Pillow 创 建 的 PNG 图 像 默 认 是 每 英寸 72 像 
Fay. el 72 


在 交互 式 环境 中 输入 以 下 代码 ， 用 你 的 操作 系统 中 实际 的 文件 夹 名 
称 蔡 换 FONT_FOLDER: 








>>> 


>>> 


>>> 


>>> 


>>> 


>>> 





from PIL import Image, ImageDraw, ImageFont 


import os 

im = Image.new('RGBA', (200, 200), 'white ') 
draw = ImageDraw.Draw(im) 

draw.text((20, 150), ‘Hello’, fill='purple' ) 


fontsFolder = 'FONT_FOLDER' # e.g. ‘/Library/Fonts’ 


arialFont = ImageFont.truetype(os.path.join(fontsFolder, ‘arial.ttf') 


draw.text((10@, 150), ‘Howdy’, fill='gray', font=arialFont) 


>>> im.save('text.png') 





导入 Image、ImageDraw、 我 们 生成 一 个 Image 对 
象 ， 是 新 的 200x200 白 色 图 像 @， 并 通过 这 个 Image 对 象 得 到 一 个 
ImageDraw 对 象 @@。 我 们 使 用 text0 在 (20, 150〉 以 紫色 绘制 Hello 全 ,在 
这 次 textO 调 用 中 ， 我 们 没有 传 入 可 选 的 第 四 个 参数 ， 所 以 这 段 文本 的 字 


体 和 大 小 没有 定制 。 


要 设置 字体 和 大 小 ， 我 们 首先 将 文件 夹 名 称 《〈 如 /Library/Fonts) 保 
存在 fontsFolder 中 。 然 后 调用 ImageFont.truetype0)， a de te 
的 .TIF 文 件 ， 之 后 是 表示 字体 大 小 的 整数 @。 a truetype() 返 
回 的 Font 对 象 保存 在 arialFont 这 样 的 变量 中 ， 然 后 将 该 变量 传 入 text()， 
ae ca 加 行 的 textO 调 用 绘制 了 Howdy， 采 用 灰色 、32 
Arial 4. 














得 到 的 text.png 文 件 如 图 17-15 所 示 。 


Hello 


Howdy 


图 17-15 得 到 的 图 像 text.png 





17.5 小 结 


图 像 由 像素 的 集合 构成 ， 每 个 像素 具有 表示 颜色 的 RGBA 值 ， 可 以 
通过 x 和 y 坐 标的 定位 。 两 种 常见 的 图 像 格式 是 JPEG 和 PNG。Pillow 模 块 
可 以 处 理 这 两 种 图 像 格式 和 其 他 格式 。 


当 图 像 被 加 载 为 Image 对 象 时 ， 它 的 宽度 和 高 度 作 为 两 整数 元 组 ， 
保存 在 size 属 性 中 。Image 数 据 类 型 的 对 象 也 有 一 些 方法 ， 实 现 常见 的 图 
像 处 理 : crop()、copy()、paste()、resize()、rotate() 和 transpose()。 要 将 
Image 对 象 保存 为 图 像 文 件 ， 束 调用 save() 方 法 。 


如 采 和 希望 程序 在 图 像 上 绘制 形状 ， 就 使 用 ImageDraw 的 方法 绘制 
点 、 线 、 和 矩形 、 椭 圆 和 多 边 形 。 该 模块 也 提供 了 一 些 方法 ， 用 你 选择 的 
字体 和 大 小 绘制 文本 。 








虽然 像 Photoshop 这 样 高 级 ( 且 昂 贵 ) 的 应 用 程序 提供 了 自动 批量 
处 理 功能 ， 但 你 可 以 用 Python 脚本 ， 免费 完成 许多 相同 的 修改 。 在 前 面 
的 章节 中 你 编写 Python 程序 来 处 理 纯 文本 文件 、 电 子 表格 、PDF 和 其 
他 格式 。 利 用 Pillow 模 块 ， 你 已 将 编程 能 力 扩 展 到 处 理 图 像 ! 


17.6 习题 
1. 什么 是 RGBA 值 ? 
2. 如 何 利 用 Pillow 模 块 得 到 'CornflowerBlue' 的 RGBA 值 ? 
3. TART CAA? 
4. 哪个 函数 针对 名 为 sophie.png 图 像 文 件 返 回 一 个 Image 对 象 ? 
5. 如 何 得 到 一 个 Image 对 象 的 图 像 的 宽度 和 高 度 ? 


调用 什么 方法 会 得 到 一 个 100x100 的 图 像 的 Image 对 象 ， 但 不 包 
re UW pe? 


7. 对 Image 对 象 修改 后 ， 如 何 将 它 保存 为 图 像 文件 ? 
8. 什么 模块 包含 Pillow 的 形状 绘制 代码 ? 
Image 对 象 没有 绘制 方法 。 哪 种 对 象 有 ? 如 何 获得 这 种 类 型 的 对 


17.7 KEM H 
作为 实践 ， 编 程 完 成 以 下 任务 。 
17.7.1 扩展 和 修正 本 章 项 目的 程序 
本 章 的 resizeAndAddLogo.py 程 序 使 用 PNG 和 JPEG 文 件 ， 但 Pillow 还 


文 持 许多 格式 ， 不 仅仅 是 这 两 个 。 扩 展 resizeAndAddLogo.py， 让 它 也 能 
处 理 GIF 和 BMP 图 像 。 











另 一 个 小 问题 是 ， 只 有 文件 扩展 名 小 写 时 ， 程 序 才 修改 PNG 和 
JPEG 文 件 。 例 如 ， 它 会 处 理 zophie.png， 但 不 处 理 zophie.PNG。 修 改 代 
码 ， 让 文件 扩展 名 检查 不 区 分 大 小 写 。 


最 后 ， 添 加 到 右 下 角 的 徽标 本 来 只 是 一 个 小 标记 ， 但 如 采 该 图 像 与 
徽标 本 吴 差 不 多 大 ， 结 果 将 类 似 于 图 17-16。 修 改 
resizeAndAddLogo.py， 使 得 图 像 必须 至 少 是 徽标 的 两 倍 的 宽度 和 高 度 ， 
然后 才 粘 贴 徽 标 。 人 否则 ， 它 应 该 跳 过 添加 徽标 。 











图 17-16 如 果 图 像 不 比 徽标 大 很 多 ， 结 果 很 难看 。 
17.7.2 在 人 硬盘 上 识别 照片 文件 夹 
我 有 一 个 坏 习 惯 ， 从 数码 相机 将 文件 传输 到 硬盘 的 临时 文件 夹 后 ， 





会 态 记 这 些 文件 来 。 编 程 扫描 整个 人 硬盘， 找到 这 些 遗 感 的 “照片 文件 
KR”, 就 太 好 了 。 


编写 一 个 程序 ， 衣 历 人 硬盘 上 的 每 个 文件 来， 找到 可 能 的 照片 文件 





夹 。 当 然 ， 首 先 你 必须 定义 什么 是 “照片 文件 夹 ”。 假 定 就 是 超过 半数 文 
件 是 照片 的 任何 文件 夹 。 你 如 何 定 义 什么 文件 是 照片 ? 


首先 ， 照 片 文件 必须 具有 文件 扩展 名 .png 或 .jpg。 此 外 ， 照 片 是 很 
2 照片 文件 的 宽度 和 高 度 都 必须 大 于 500 像 素 。 这 是 安全 的 假 
， 因 为 大 多 数 数码 相机 照片 ， 宽 度 和 高 度 都 是 几 王 像素 。 


作为 提示 ， 下 面 是 这 个 程序 的 粗略 框架 : 








#! python3 
# Import modules and write comments to describe this program. 


for foldername, subfolders, filenames in os.walk('C:\\'): 
numPhotoFiles = @ 
numNonPhotoFiles = @ 
for filename in filenames: 
# Check if file extension isn't .png or .jpg. 
if TODO: 
numNonPhotoFiles += 1 
continue # skip to next filename 


# Open image file using Pillow. 


# Check if width & height are larger than 500. 

if TODO: 
# Image is large enough to be considered a photo. 
numPhotoFiles += 1 

else: 
# Image is too small to be a photo. 
numNonPhotoFiles += 1 


# If more than half of files were photos, 
# print the absolute path of the folder. 
if TODO: 

print (TODO) 





程序 运行 时 ， 它 应 该 在 屏幕 上 打印 所 有 照片 文件 夹 的 绝对 路 径 。 
17.7.3 定制 的 座位 卡 





第 13 章 包含 了 一 个 实践 项 目 ， 利 用 纯 文 本 文件 的 客人 名 单 ， 创 建 定 
制 的 邀请 函 。 作 为 附加 项 目 ， 请 使 用 Pillow 模块 ， 为 客人 创建 定制 的 座 
位 卡 图 像 。 从 http:/nostarch. com/automatestuff/ 下 载 资 源 文 件 guests.txt， 
对 于 其 中 列 出 的 客人 ， 生 成 带 有 客人 名 字 和 一 些 鲜花 装饰 的 图 像 文 件 。 
在 http://nostarch.com/automatestuff/ 的 资源 中 ， 包 含 一 个 版 权 为 公共 领域 
的 鲜花 图 像 。 


为 了 确保 每 个 座位 卡 大 小 相同 ， 在 图 像 的 边缘 添加 一 个 黑色 的 矩 
形 ， 这 样 在 图 像 打 印 出 来 时 ， 可 以 沿线 一 裁 。Pillow 生 成 的 PNG 文 件 被 
设置 为 每 英寸 72 个 像素 ， 因 此 4x5 英 寸 的 卡片 需要 288x360 像 素 的 图 像 。 





第 18 章 ”用 GUI 目 动 化 控制 键盘 和 
鼠标 


知道 用 于 编辑 电子 表格 、 下 载 文 件 和 运行 程序 的 各 种 Python 模 块 ， 
是 很 有 用 的 。 但 有 时候 ， 束 是 没有 模块 对 应 你 要 操作 的 应 用 程序 。 在 计 
算 机 上 上 自动 化 任务 的 终极 工具 ， 惑 是 写 程序 直接 控制 键盘 和 鼠标 。 这 些 
程序 可 以 控制 其 他 应 用 ， 同 它们 发 送 庶 拟 的 击 键 和 鼠标 点 击 ， 惑 像 你 目 
己 坐 在 计算 机 前 与 应 用 交互 一 样 。 这 种 技术 被 称 为 “图形 用 户 界 面目 动 
化 ”， 或 简称 为 "GUI 自动 化 "。 有 了 GUI 自动 化 ， 你 的 程序 就 像 一 个 活 人 
用 户 坐 在 计算 机 前 一 样 ， 能 做 任何 事情 ， 除 了 将 咖啡 泼 在 键盘 上 。 


请 将 GUI 自动 化 看 成 是 对 一 个 机 械 臂 编程 。 你 可 以 对 机 械 臂 编程 ， 
对 于 涉及 许多 无 脑 点 击 或 填 表 的 任务 ， 这 种 技 
特别 有 用 。 


“pyautogui 模 块 包含 了 一 些 函 数 ， 可 以 模拟 鼠标 移动 、 按 键 和 滚动 鼠 
标 滚 轮 。 本 章 只 介绍 了 pyautogui 功 能 的 子 集 。 可 以 
在 http://pyautogui.readthedocs.org/ 找到 完整 的 文档 。 























18.1 安装 pyautogui 模 块 


pyautogui 模 块 可 以 向 Windows、OS X 和 Linux 发 送 虚 拟 按键 和 鼠标 
点 击 。 根 据 你 使 用 的 操作 系统 ， 在 安装 pyautogui 之 前 ， 可 能 需要 安装 一 
些 其 他 模块 〈 称 为 依赖 关系 ) 。 


。 在 Windows 上 ， 不 需要 安装 其 他 模块 。 

。 在 OS X 上 ， 运 行 sudo pip3 install pyobjc-framework-Quartz, sudo 
pip3 install pyobjc-core， 人 然后 sudo pip3 install pyobjc. 

。 在 Linuxz 上， 运行 sudo pip3 install python3-xlib, sudo apt-get install 
scrot, sudo apt-get install python3-tk, V4 sudo apt-get install 
python3-dev〈Scrot 是 PyAutoGUI 使 用 的 屏幕 快照 程序 ) o 





在 这 些 依赖 安装 后 ， 运 行 pip install pyautogui (或 在 OS X 和 Linux 上 
运行 pip3) ， 安 闭 pyautogui。 


附录 A 有 安装 第 三 方 模块 的 完整 信息 。 要 测试 PyAutoGUI 是 否 正 确 
安装 ， 就 在 交互 式 环境 运行 import pyautogui， 并 检查 出 错 信 息 。 


18.2 走 对 路 


在 开始 GUI 目 动 化 之 前 ， 你 应 该 知道 如 何 避 免 可 能 发 生 的 问题 。 
Python 能 以 想象 不 到 的 速度 移动 鼠标 并 击 键 。 实 际 上 ， 它 可 能 太 快 ， 导 
致 其 他 程序 跟 不 上 上。 而且， 如 果 出 了 问题 ， 但 你 的 程序 继续 到 处 移动 鼠 
标 ， 可 能 很 难 捅 清楚 程序 到 撒 在 做 什么 ， 或 者 如 何 从 问题 中 恢复 。 惑 像 
迪斯尼 电影 《魔法 师 的 学 徒 》 中 的 魔法 扫 昌 ， 它 不 断 地 辐 米 老鼠 的 浴缸 
注水 《然后 水 洲 出 来 ) ， 你 的 程序 可 能 失去 控制 ， 即 使 它 完 美 地 执行 你 
的 指令 。 如 宁 程 序 上 自己 在 移动 鼠标 ， 停 止 它 可 能 很 难 ， 你 不 能 点 击 
IDLE 窗 口 来 关闭 它 。 好 在 ， 有 几 种 方法 来 防止 或 恢复 GUI 自动 化 问题 。 


18.2.1 通过 注销 关闭 所 有 程序 


停止 失去 控制 的 GUI 自动 化 程序 ， 最 简单 的 方法 可 能 是 注销 ， 这 将 
关闭 所 有 运行 的 程序 。 在 windows 和 Linux 上 ， 注 销 的 热 键 是 Ctrl-Alt- 
Del. ÆOS X， 热 键 是 大 -Shift-Option-Q。 通 过 注销 ， 你 会 丢失 所 有 未 保 
存 的 工作 ， 但 至 少 不 需 要 等 计算 机 完全 重启 。 


18.2.2 暂停 和 目 动 防 故障 装置 


你 可 以 告诉 脚本 在 每 次 函数 调用 后 等 一 会 儿 ， 在 出 问题 的 时 候 ， 让 
你 有 很 短 的 时 间 窗 口 来 控制 鼠标 和 键盘 。 要 做 到 这 一 点 ， 将 
pyautogui.PAUSE 变 量 设 置 为 要 暂停 的 秒 数 。 例 如 ， 在 设置 
pyautogui.PAUSE = 1.5 之 后 ， 每 个 PyAutoGUI 函 数 调 用 在 执行 动作 之 
后 ， 都 会 等 待 一 秒 半 。 非 PyAutoGUI 指 令 不 会 停顿 。 


pyautogui 也 有 自动 防 故障 功能 。 将 鼠标 移 到 屏幕 的 左上 角 ， 这 将 
导致 pyautogui 产 生 pyautogui .FailSafeException 异 常 。 你 的 程序 可 以 用 try 
和 except 语 句 来 处 理 这 个 异常 ， 也 可 以 让 异常 导致 程序 崩 演 。 这 两 种 情 
况 下 ， 如 有 果 你 尽 可 能 快 地 回 左 上 移动 鼠标 ， 上 自动 防 故障 功能 都 将 停止 程 
序 。 可 以 设置 pyautogui. FAILSAFE = False， 禁 止 这 项 功能 。 在 交互 式 
环境 中 输入 以 下 内 容 : 


>>> import pyautogui 
































>>> pyautogui.PAUSE = 1 


>>> pyautogui.FAILSAFE = True 





这 里 我 们 导入 pyautogui， 并 将 pyautogui.PAUSE 设 置 为 1， 即 每 次 函 
数 调 用 后 暂停 一 秒 。 将 pyautogui.FAILSAFE 设 置 为 True， 启 动 自动 防 故 
障 功 能 。 


18.3 控制 鼠标 移动 


在 本 节 中 ， 你 将 学 习 如 何 利 用 pyautogui 移 动 鼠 标 ， 追 踪 它 在 屏幕 上 
的 位 置 ， 但 首先 需要 理解 pyautogui 如 何 处 理 坐 标 。 


pyautogui 的 鼠标 函数 使 用 x、y 坐 标 。 图 18-1 中 展示 了 计算 机 屏 疾 的 
坐标 系统 。 它 与 17 章 中 讨论 的 图 像 坐标 系统 类 似 。 原 点 的 x、y 都 是 零 ， 
在 屏幕 的 堪 上 角 。 回 右 x 坐 标 增 加 ， 问 下 y 坐 标 增加 。 上 所 有 坐标 都 是 正 整 
数 ， 没 有 负数 坐标 。 
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图 18-1 分 辩 率 为 1920 x 1080 的 计算 机 屏幕 上 的 坐标 
分 辨 率 是 屏幕 的 宽 和 高 有 多 少 像素 。 如 果 屏 幕 的 分 辩 率 设置 为 1920 


x 1080， 那 么 左上 角 的 坐标 是 (0，0) ， 右 下 角 的 坐标 是 (1919， 
1079) 。 


pyautogui.size() 函数 返回 两 个 整数 的 元 组 ， 包 含 屏 幕 的 宽 和 高 的 像 
素数 。 在 交互 式 环境 中 输入 下 面 内 容 : 


>>> import pyautogui 











>>> pyautogui.size() 


(1920, 1080) 
>>> width, height = pyautogui.size() 





车 分辨 率 为 1920 x 1080 的 计算 机 上 ，pyautogui.size() 返回 (1920， 





1080) 。 根 据 屏 幕 分 辨 率 的 不 同 ， 返 回 值 可 能 不 一 样 。 你 可 以 将 来 自 
pyautogui.size() 的 宽 和 高 存在 变量 中 ， 如 width 和 height， 让 程序 的 可 读 
性 更 好 。 


18.3.1 移动 鼠标 


既然 你 理解 了 屏 硕 坐 标 ， 就 让 我 们 来 移动 鼠标 。 
pyautogui.moveTo() 函数 将 鼠标 立即 移动 到 屏 间 的 指定 位 置 。 表 示 x、y 
坐标 的 整数 值 分 别 构成 了 函数 的 第 一 个 和 第 二 个 参数 。 可 选 的 duration 
整数 或 浮 点 数 关 键 字 参数 ， 指 定 了 将 鼠标 移 到 目的 位 置 所 需 的 秒 数 。 如 
果 不 指定 ， 默 认 值 是 零 ， 表 示 立 即 移 动 〈 在 PyAutoGUI 函 数 中 ， 所 有 的 
duration 关 键 字 参 数 都 是 可 选 的 ) 。 在 交互 式 环境 中 输入 以 下 内 容 : 





>>> import pyautogui 


>>> for i in range(10): 


pyautogui.moveTo(100, 100, duration=0.25) 


pyautogui.moveTo(200, 100, duration=0.25) 


pyautogui.moveTo(200, 200, duration=0.25) 


pyautogui.moveTo(100, 200, duration=0.25) 





这 个 例子 根据 提供 的 坐标 ， 以 正方 形 的 模式 顺 时 针 移 动 鼠 标 ， 移 动 
了 10 次 。 每 次 移动 耗 时 0.25 秒 ， 因 为 有 关键 字 参 数 指定 duration=0.25。 
ae 的 第 三 个 参数 ， 鼠 标 就 会 马上 从 一 个 点 移 到 另 一 





pyautogui.moveRel() 函数 相对 于 当前 的 位 置 移动 鼠标 。 下 面 的 例子 
同样 以 正方 形 的 模式 移动 鼠标 ， 只 是 它 从 代码 开始 运行 时 鼠标 所 在 的 位 
置 开始 ， 按 正方 形 移 动 : 


>>> import pyautogui 








>>> for i in range(10): 


pyautogui.moveRel(100, ©, duration=0. 25) 


pyautogui.moveRel(@, 100, duration=0. 25) 


pyautogui.moveRel(-100, ©, duration=0.25) 


pyautogui.moveRel(@, -100, duration=@. 25) 





pyautogui.moveRel() 也 接受 3 个 参数 : WAKES > PRR, 








向 下 垂直 移动 多 少 个 像素 ， 以 及 《可 选 的 ) 花 多 少时 间 完 成 移动 。 为 第 
一 第 二 个 参数 提供 负 整 数 ， 鼠 标 将 同 左 或 网 上 移动 。 


18.3.2 获取 鼠标 位 置 
通过 调用 pyautogui.position() 函数 ， 可 以 确定 鼠标 当前 的 位 置 。 它 


将 返回 函数 调用 时 ， 鼠 标 x、y 坐 标的 元 组 。 在 交互 式 环境 中 输入 以 下 内 
容 ， 每 次 调用 后 请 移动 鼠标 : 


>>> pyautogui.position() 


(311, 622) 
>>> pyautogui.position() 


(377, 481) 
>>> pyautogui.position() 


(1536, 637) 





当然 ， 返 回 值 取决 于 鼠标 的 位 置 。 


18.4 项 目 : “现在 鼠标 在 哪里 ? ” 

能 够 确定 鼠标 的 位 置 ， 对 于 建立 GUI 自动 化 脚本 是 很 重要 的 。 但 光 
看 屏幕 ， 几 平 不 能 弄 清楚 像素 的 准确 坐标 。 如 果 有 一 个 程序 在 移动 女 标 
时 随时 显示 xy 坐标 ， 就 会 很 方便 。 

总 的 来 说 ， 你 希望 该 程序 做 到 : 


获得 鼠标 当前 的 xy 坐标 。 
当 鼠 标 在 屏幕 上 移动 时 ， 更 新 这 些 坐标 。 








这 意味 着 代码 需要 做 到 下 列 事情 : 
。 调用 函数 取得 当前 坐标 。 
。 在 屏幕 上 打印 回 退 制服 。 删 除 以 前 打印 的 坐标 。 
。 处 理 异 第 。 让 用 户 能 按键 退出 。 


打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保存 为 mouseNow.py。 


#! python3 
# mouseNow.py - Displays the mouse cursor's current position. 


import pyautogui 


print('Press Ctrl-C to quit.') 
#TODO: Get and print the mouse coordinates. 





程序 开始 导入 了 pyautogui 模 块 ， 打 印 的 内 容 提醒 用 户 按 Ctrl-C 退 


第 2 步 : 编写 退出 代码 和 无 限 循环 


可 以 用 无 限 while 循环 ， 不 断 打 印 通 过 mouse.position0 获得 的 当前 
鼠标 坐标 。 对 于 退出 程序 的 代码 ， 你 需要 捕捉 KeyboardInterrupt 7t% , 
它 会 在 用 户 按 下 Ctrl-C 时 抛 出 。 如 果 不 处 理 这 个 异常 ， 它 会 回 用 户 显 示 
丑陋 的 调用 栈 和 出 错 信 息 。 将 下 面 内 容 添加 到 程序 中 : 











#! python3 

# mouseNow.py - Displays the mouse cursor's current position. 
import pyautogui 

print('Press Ctrl-C to quit.') 

try: 


while True: 


# TODO: Get and print the mouse coordinates. 


@ except Keyboardinterrupt: 


@ print('\nDone.') 





为 了 处 理 这 个 异常 ， 将 无 限 while 人 循环 放 在 一 个 try 语 句 中 。 当 用 户 
按 下 Ctrl-C， 程 序 执行 将 转 到 except 子 句 @， 新 行 中 将 输出 Done@，。 


第 3 步 : 获取 并 打印 鼠标 坐标 





while 循 环 内 的 代码 应 该 获取 当前 鼠标 的 坐标 ， 提 供 好 看 的 格式 ， 
并 打印 输出 。 在 while 循 环 内 添加 以 下 代码 : 





#! python3 

# mouseNow.py - Displays the mouse cursor's current position. 
import pyautogui 

print('Press Ctrl-C to quit.') 

--snip 


# Get and print the mouse coordinates. 


X, y = pyautogui.position() 


positionStr = 'X: ' + str(x).rjust(4) + ' Y: ' 


+ str(y).rjust(4) 


--snip 





利用 多 重 赋值 的 技巧 ， 变 量 x、y 得 到 了 pyautogui.position() 返回 元 
组 中 的 两 个 整 型 值 。 将 x、y 传 递 给 str() 函数 ， 可 以 得 到 整 型 坐标 的 字符 


字符 
PIER. rjust) 字符 串 方 法 将 对 坐标 右 调 整 ， 让 它们 占据 同样 的 宽度 ， 


不 论 坐 标 是 一 位 、 两 位 、 三 位 或 四 位 数字 。 连 接 右 调 准 的 字符 串 坐 标 ， 
ae X: ALY: ' 标签， 就 得 到 了 格式 化 好 的 字符 串 ， 保 存在 positionStr 

















在 程序 的 末尾 ， 添 加 以 下 代码 : 





#! python3 


# mouseNow.py - Displays the mouse cursor's current position. 
--snip 


print(positionStr, end='') 


© print('\b' * len(positionStr), end='', flush=True) 





这 将 在 屏幕 上 打印 positionStr。print() 函数 的 关键 字 参 数 end=" 阻止 
了 在 打印 行 末 添加 默认 的 换行 字符 。 这 可 能 会 探 除 你 已 经 在 屏幕 上 打印 





的 文本 ， 但 只 是 最 近 一 行文 本 。 如 有 果 你 先 打 印 了 一 个 换行 字符 ， 就 不 会 
探 除 以 前 打印 的 内 容 。 


要 探 除 文本 ， 束 打印 b 退 格 转 义 字 符 。 这 个 特殊 字符 擦 除 屏 幕 当前 
行 末 尾 的 字符 。 代 码 行 @ 利 用 字符 串 复 制 ， 得 到 了 许多 \b 字符 构成 的 字 
从 串 ， 长 度 与 positionStr 中 保存 的 字符 捉 长 度 一 样 ， 效 果 束 是 擦 除了 前 
面 打印 的 字符 串 。 


print() 调用 打印 \b 退 格 键 字符 时 ， 总 是 传 入 flush=True (其 技术 上 的 
理由 超出 了 本 书 的 范围 ) 。 耕 则 ， 屏 秦 可 能 不 会 按期 望 更 新 。 

while 循 环 重复 非常 快 ， 用 户 实 际 上 不 会 注意 到 你 在 屏 硕 上 删除 并 
重新 打印 整个 数字 。 例 如 ， 如 果 X 坐 标 是 563， 鼠标 右 移 一 个 像素 ， 看 起 
来 就 像 563 中 的 3 变 成 了 4。 


如 末 运 行程 序 ， 只 有 两 行 打印 输出 。 看 起 来 像 这 样 : 








Press Ctrl-C to quit. 
X: 290 Y: 424 





第 一 行 显示 指令 ; 按 Ctl-C 退 出 。 第 二 行 显示 鼠标 坐标 ， 当 你 在 屏 
幕 上 移动 鼠标 时 ， 会 变化 。 利 用 这 个 程序 ， 就 能 搞 清 楚 鼠 标 坐 标 ， 用 于 
你 的 GUI 自动 化 脚本 。 


18.5 控制 鼠标 交互 


既然 你 知道 了 如 何 移动 鼠标 ， 大 清楚 了 它 在 屏幕 上 的 位 置 ， 融 可 以 
开始 点 击 、 拖 动 和 滚动 鼠标 。 





18.5.1 点 击 鼠 标 


要 问 计 算 机 发 送 虚 拟 的 鼠标 点 击 ， 就 调用 pyautogui.click0) 方法 。 默 
认 情 况 下 ， 点 击 将 使 用 鼠标 左 键 ， 点 击发 生 在 鼠标 当前 所 在 位 置 。 如 采 
0 
J 第 一 第 二 参数 。 


如 果 想 指定 鼠标 按键 ， 就 加 入 button 关 键 字 参 数 ， 值 分 别 为 
"eft、'middle' 或 right。 例 如 ，pyautogui.dlick (100, 150, 
button='left') 将 在 坐标 “100，150〉 处 点 击 鼠 标 左 键 。 而 
pyautogui.click (200，250，button='right'〉 将 在 坐标 “200，250) 处 点 
击 右键 。 


在 交互 式 环境 中 输入 以 下 内 容 : 





>>> import pyautogui 


>>> pyautogui.click(10, 5) 


你 应 该 看 到 鼠标 移 到 屏幕 左上 角 的 位 置 ， 并 点 击 一 次 。 完 整 的 “点 
击 ” 是 指 按 下 鼠标 按键 ， 然 后 放 开 ， 同 时 不 移动 位 置 。 实 现 点 击 也 可 以 
调用 pyautogui. mouseDown0， 这 只 是 按 下 鼠标 按键 ， 再 调用 
pyautogui.mouseUp()， 这 只 是 释放 鼠标 按键 。 这 些 函 数 的 参数 与 click() 
相同 。 实 际 上 ，dlick() 函数 只 是 这 两 个 函数 调用 的 方便 封装 。 


为 了 进一步 方便 ，pyautogui.doubleClick() 函数 只 执行 双击 鼠标 左 
$ë. pyautogui.rightClick() 和 pyautogui.middleClick() 函数 将 分 别 执行 双 
击 右键 和 双击 中 键 。 











18.5.2 拖 动 鼠标 


“ 拖 动 ”意味 大 移动 鼠标 ， 同 时 按 住 一 个 按键 不 放 。 例 如 ， 可 以 通过 
拖 动 文件 图 标 ， 在 文件 夹 之 间 移 动 文 件 ， 或 在 日 历 应 用 中 移动 预约 。 


PyAutoGUI 提 供 了 pyautogui.dragTo() 和 pyautogui.dragRel() 函数 ， 
将 鼠标 拖 动 到 一 个 新 的 位 置 ， 或 相对 当前 位 置 的 位 置 。dragTo0 和 
dragRel0 的 参数 与 noveTo0 和 moveRel0 相同 : x 坐 标 /水 平移 动 ，y 坐 
标 / 垂 直 移 动 ， 以 及 可 选 的 时 间 间 隔 《〈 在 OS X 上 ， 如 有 果 鼠 标 移动 太 快 ， 
拖 动 会 不 对 ， 上 所 以 建议 提供 duration 关 键 字 参数 ) 。 


要 尝试 这 些 函 数 ， 请 打开 一 个 绘图 应 用 ， 如 Windows 上 的 Paint，OS 
X 上 的 Paintbrush， 或 Linux 上 的 GNU Paint (如 果 没 有 绘图 应 用 ， 可 以 使 
用 在 线 绘 图 ， 网 址 是 http://sumopaint.com/ ) 。 我 将 使 用 PyAutoGUI 在 这 
些 应 用 中 绘图 。 


让 鼠标 停留 在 绘图 应 用 的 画布 上 ， 同 时 选中 铅笔 或 画笔 工具 ， 在 新 
的 文件 编辑 窗口 中 输入 以 下 内 容 ， 保 存 为 spiralDraw.py: 

















import pyautogui，time 

@ time.sleep(5) 

@ pyautogui.click() # click to put drawing program in focus 
distance = 200 

while distance > @: 


pyautogui.dragRel(distance, ©, duration=0.2) # move right 
distance = distance - 5 
pyautogui.dragRel(@, distance, duration=0.2) # move down 
pyautogui.dragRel(-distance, ©, duration=0.2) # move left 
distance = distance - 5 
pyautogui.dragRel(@, -distance, duration=@.2) # move up 


OOoeo 





在 运行 这 个 程序 时 ， 会 有 5 秒 钟 的 延迟 @， 让 你 选中 铅笔 或 画笔 工 





具 ， 并 让 鼠标 停留 在 画图 工具 的 窗口 上 。 然 后 spiralDraw.py 将 控制 鼠 
标 ， 点 击 画 图 程序 获得 焦点 候 。 如 果 窗 口 有 闪烁 的 光标 ， 它 就 获得 

了 “焦点 ”， 这 时 你 的 动作 “〈 例 如 打字 ， 或 这 个 例子 中 的 拖 动 鼠标 ) aE 
会 影响 该 窗口 。 男 图 程序 获取 焦点 后 ，spiralDraw.py 将 绘制 一 个 正方 形 
旋转 网 案 ， 如 图 18-2 所 示 。 
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图 18-2 pyautogui.dragRel() 例子 的 结 


distance 变量 从 200 开始 ， 所 以 在 while 循环 的 第 一 次 迭代 中 ， 第 
一 次 dragRel0 调用 将 光标 向 右 拖 动 200 像 素 ， 花 了 0.2 秒 人 @。 人 然后 distance 
降 到 195 人 @， 第 二 次 dragRel0 调用 将 光标 加 下 拖 动 195 像 素 人 @。 第 三 次 
dragRel() 调用 将 光标 水 平 拖 动 -195〈 向 左 195) @，distance 降 到 190， 
最 后 一 次 dragRel 调 用 将 光标 向 上 拖 动 190。 每 次 迭代 ， 和 鼠标 都 问 右 、 问 
下 、 向 左 、 向 上 拖 动 ，distance 都 比 前 一 次 迭代 小 一 点 。 通 过 这 段 代 人 码 
循环 ， 束 可 以 移动 鼠标 光标 ， 夯 出 正方 形 旋转 图 案 。 


可 以 手工 画 出 这 个 流 涡 《或 者 说 用 鼠标 ) ， 但 一 定 要 男 得 很 慢 ， 才 
能 这 么 精确 。pyautogui 能 够 几 秒 钟 就 画 完 。 


DERRE A 
| 注意 

















你 可 以 在 代码 中 使 用 pilow 模 块 的 画图 函数 ， 画 出 这 个 图 形 ， 更 多 信息 请 参见 第 17 章 。 但 利用 
GUI 自动 化 就 能 使 用 画图 程序 提供 的 高 级 画图 工具 ， 如 灰 度 、 不 同 的 画笔 或 填充 工具 。 

































































18.5.3 滚动 鼠标 


最 后 一 个 pyautogui 鼠 标 函 数 是 scrol0。 你 向 它 提供 一 个 整 型 参数 ， 
说 明 向 上 或 向 下 滚动 多 少 单位 。 单 位 的 意义 在 每 个 操作 系统 和 应 用 上 不 
一 样 ， 所 以 你 必须 试验 ， 看 看 在 你 的 情况 下 滚动 多 远 。 滚 动 发 生 在 鼠标 
的 当前 位 置 。 传 递 正 整数 表示 向 上 滚动 ， 传 递 负 整数 表示 向 下 滚动 。 将 
鼠标 停留 在 IDLE 窗 口上 ， 在 IDLE 的 交互 式 环境 中 运行 以 下 代码 : 











>>> pyautogui.scrol1(266) 





你 会 看 到 IDLE 轻 松 地 向 上 演 动 ， 然 后 义 同 下 深 回 来 。 友 生 疝 下 深 
动 是 因为 ， 在 执行 完 指 令 后 ，IDLE 自 动向 下 滚动 到 底部 。 输 入 以 下 代 
码 作 为 蔡 代 : 








>>> import pyperclip 


>>> numbers = ‘' 


>>> for i in range(200): 


numbers = numbers + str(i) + '\n' 


>>> pyperclip.copy(numbers) 





这 导入 了 pyperclip， 并 建立 一 个 空 字 符 串 numbers。 代 码 然后 循环 
200 个 数字 ， 将 每 个 数字 和 换行 符 加 入 numbers。 在 
pyperclip.copy (numbers) 之 后 ， 剪 贴 板 中 将 保存 200 行 数字 。 打 开 一 个 
新 的 文件 编辑 窗口 ， 将 文本 粘贴 进去 。 这 将 得 到 一 个 很 大 的 文本 窗口 ， 
让 你 尝试 滚动 。 在 交互 式 环境 中 输入 以 下 代码 : 





>>> import time, pyautogui 


>>> time.sleep(5); pyautogui.scroll1(10@) 
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在 第 二 行 ， 输 入 的 两 条 命令 以 分 号 分 隅 ， 这 告诉 Python 在 运行 这 些 
命令 时 ， 束 像 它 们 在 独立 的 行 中 一 样 。 唯 一 的 区 别 在 于 ， 交 互 式 环境 不 
会 在 两 个 命令 之 间 提 示 你 输入 。 这 对 于 这 个 例子 很 重要 ， 因 为 我 们 希望 
pyautogui.scroll() 调用 在 等 待 之 后 自动 发 生 ( 请 注意 ， 虽 然 在 交互 式 环 
境 中 ， 将 两 条 命令 放 在 一 行 中 可 能 有 用 ， 但 在 你 的 程序 中 ， 还 是 应 该 让 
每 条 命令 独占 一 行 ) 。 


按 下 回 车 运行 代码 后 ， 你 有 5 秒 钟 的 时 间 点 击 文 件 编辑 窗口 ， 让 它 
获得 焦点 。 在 5 秒 钟 的 延迟 结束 后 ，pyautogui.scroll( 调用 将 导致 文件 编 
辑 窗口 同上 滚动 。 


18.6 处 理 屏 幕 


你 的 GUI 自动 化 程序 没有 必要 盲目 地 点 击 和 输入 。pyautogui 拥 有 屏 
幕 快照 的 功能 ， 可 以 根据 当前 屏幕 的 内 容 创建 图 形 文件 。 这 些 函 数 也 可 
以 返回 一 个 Pilow 的 Image 对 象 ， 包 含 当前 屏幕 的 内 容 。 如 果 你 是 跳跃 式 
MAGE, TERENE, pillow, KAA 
\ 容 。 


在 Linux 计 算 机 上 上， 需要 安装 scrot 程 序 ， 才 能 在 pyautogui 中 使 用 屏 
幕 快照 功能 。 在 终端 窗口 中 ， 执 行 sudo apt-get install scrot， 安 装 该 程 
序 。 如 果 你 使 用 Windows 或 OS X， 就 跳 过 这 一 步 ， 继 续 本 节 的 内 容 。 
18.6.1 获取 屏幕 快照 


要 在 Python 中 获取 屏幕 快照 ， 就 调用 pyautogui.screenshotO) 函数 。 
在 交互 式 环境 中 输入 以 下 内 容 : 























>>> import pyautogui 


>>> im = pyautogui.screenshot() 


im 变量 将 包含 一 个 屏幕 快照 的 Image 对 象 。 现 在 可 以 调用 im 变量 中 
tmage 守 象 的 廊 法 ， 就 像 所 有 其 他 Image 对 象 一 样 。 在 将 式 环境 中 输入 
以 下 内 容 ， 


>>> im.getpixel((6，6)) 


(176, 176, 175) 
>>> im.getpixel((50, 20@)) 


(130, 135, 144) 





向 getpixel0 函数 传 入 坐标 元 组 ， 如 CO, 0) BK (50, 200) ， 它 将 
告诉 你 图 像 中 这 些 坐 标 处 的 像素 颜色 。getpixel() 函数 的 返回 值 是 一 个 
RGB 元 组 ， 包 含 3 个 整数 ， 表 示 像 素 的 红 绿 落 值 “没有 第 四 个 值 表示 
alpha， 因 为 屏幕 快照 是 完全 不 透明 的 ) 。 这 就 是 你 的 程序 “看 到 ”当前 屏 
幕 上 内 容 的 方法 。 


18.6.2 分 析 屏 幕 快 照 
假设 你 的 GUI 自动 化 程序 中 ， 有 一 步 是 点 击 灰 色 按 钮 。 在 调用 


click) 方法 之 前 ， 你 可 以 获取 屏幕 快照 ， 碍 看 脚本 要 点 击 处 的 像素 。 如 
果 它 的 颜色 和 灰色 按钮 不 一 样 ， 那 么 程序 就 知道 出 问题 了 。 也 许 窗口 发 











a 意外 的 移动 ， 或 者 弹出 式 对 话 框 挡住 了 该 按钮 。 这 时 ， 不 应 该 继续 
可 能 会 反击 到 错误 的 东西 ， 造 成 严重 破坏 〉， 程 序 可 以 “看 到 ” 它 没 有 
cide EMM E, 并 有 自行 停止 。 


如 果 屏 幕 上 指定 的 x、y 坐标 处 的 像素 与 指定 的 颜色 匹配 ， 
PyAutoGUI 的 pixelMatchesColor() 函数 将 返回 True。 第 一 和 第 二 个 参数 
是 整数 ， 对 应 x 和 y 坐 标 。 第 三 个 参数 是 一 个 元 组 ， aa, Fe BF 
幕 像 素 必 须 匹 配 的 RGB 颜色 。 在 交互 式 环境 中 输入 以 下 内 容 : 








>>> import pyautogui 


>>> im = pyautogui.screenshot() 


@ >>> im.getpixel((50, 200)) 


(130, 135, 144) 
@ >>> pyautogui.pixelMatchesColor(50, 200, (130, 135, 144)) 


True 
© >>> pyautogui.pixelMatchesColor(50, 200, (255, 135, 144)) 


False 
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在 获取 屏幕 快照 ， 并 用 getpixel0) 函数 取得 特定 坐标 处 像素 颜色 的 
RGB 元 组 之 后 @， 将 同样 的 坐标 和 RGB 元 组 传递 给 pixelMatchesColor() 
全 ， 这 应 该 返回 True。 然 后 改变 RBG 元 组 中 的 一 个 值 ， 用 同样 的 坐标 再 
次 调用 pixelMatches Color) 合 ， 这 应 该 返回 False。 你 的 GUI 自动 化 程序 
要 调用 click() 之 前 ， 这 种 方法 应 该 有 用 。 请 注意 ， 给 定 坐标 处 的 颜色 应 
该 “完全 ”匹配 。 即 使 只 是 稍 有 差异 〈 人 例如， 是 (255, 255, 254) 而 不 
是 (255, 255, 255) ) ， 那 么 函数 也 会 返回 False。 








18.7 WH: 扩展 mouseNow 程 序 


可 以 扩展 本 章 前 面 的 mouseNow.py 项 目 ， 让 它 不 仪 给 出 鼠标 当前 位 
置 的 x、y 坐 标 ， 也 给 出 这 个 像素 的 RGB 颜色 。 将 mouseNow.py 中 while 
循环 内 的 代码 修改 为 : 





#! python3 
# mouseNow.py - Displays the mouse cursor's current position. 
--snip 


positionStr = 'X: ' + str(x).rjust(4) + ' Y: ' + str(y).rjust(4) 
pixelColor = pyautogui.screenshot().getpixel((x, y)) 


positionStr += ' RGB: (' + str(pixelColor[@]).rjust(3) 


positionStr += ', ' + str(pixelColor[1]).rjust(3) 


positionStr += ', ' + str(pixelColor[2]).rjust(3) + ')' 


print(positionStr, end='') 


--snip 





现在 ， 如 果 运 行 mouseNow.py， 那 么 输出 将 包括 鼠标 光标 处 像素 的 
RGB 颜色 值 。 


Press Ctrl-C to quit. 
X: 406 Y: 17 RGB: (161, 50, 50) 





这 个 信息 ， 配 合 pixelMatchesColor() 函数 ， 应 该 使 得 给 GUI 自动 化 





脚本 添加 颜色 检查 变 得 容易 。 


18.8 图 像 识 别 


但 是 ， 如 果 事 先 不 知道 应 该 点 击 哪里 ， 上 怎么 办 ? 可 以 使 用 图 像 识 
别 。 向 PyAutoGUI 提 供 希 望 点 击 的 图 像 ， 让 它 去 弄 清 楚 坐 标 。 


例如 ， 如 果 你 以 前 获得 了 屏幕 快照 ， 截 取 了 提交 按钮 的 图 像 ， 保 存 
为 submit.png， 那 么 locateOnScreen() 函数 将 返回 图 像 所 在 处 的 坐标 。 要 
了 解 locateOnScreen0) 函 数 的 工作 方式 ， 请 获取 屏幕 上 一 小 块 区 域 的 屏 
幕 快照 ， 保 存 该 图 像 ， 并 在 交互 式 环境 中 输入 以 下 内 容 ， 用 你 的 屏幕 快 
照 文 件 名 代替 'submit. png': 





>>> import pyautogui 


>>> pyautogui. locateOnScreen('submit.png' ) 


(643, 745, 70, 29) 





locateOnScreen() 函数 返回 4 个 整数 的 元 组 ， 是 屏幕 上 首次 发 现 访 
图 像 时 左边 的 x 坐标 、 顶 边 的 y 坐 标 、 宽 度 以 及 高 度 。 如 果 你 用 上 自己 的 屏 
幕 快照 ， 在 你 的 计算 机 上 和 莹 试 ， 那 么 返回 值 会 和 这 里 显示 的 不 一 样 。 


如 果 屏 幕 上 找 不 到 该 图 像 ，locateOnScreen() 函数 将 返回 None。 请 
注意 要 成 功 识 别 ， 屏 幕 上 的 图 像 必 须 与 提供 的 图 像 完 全 匹配 。 即 使 只 差 
一 个 像素 ，locateOn Screen() 函数 也 会 返回 None。 


如 末 该 图 像 在 屏幕 上 能 够 找到 多 处 ，locateAllOnScreen() 函数 将 返 
回 一 个 Generator 对 象 。 可 以 将 它 传递 给 list() ， 返 回 一 个 4 整数 元 组 的 列 
表 。 继 续 在 交互 式 环境 的 例子 中 输入 以 下 内 容 (用 你 自己 的 图 像 文 件 名 
取代 'submit.png') : 


>>> list(pyautogui.locateAl110nScreen('submit.png' ) ) 


[(643, 745, 70, 29), (1007, 801, 70, 29)] 





每 个 4 整数 元 组 代表 了 屏幕 上 的 一 个 区 域 。 如 果 图 像 只 找到 一 次 ， 
返回 的 列表 就 只 包含 一 个 元 组 。 


在 得 到 图 像 押 在 屏幕 区 域 的 4 整数 元 组 后 ， 就 可 以 点 击 这 个 区 域 的 
中 心 。 将 元 组 传递 给 center() PBL, “CREA KU x. yh ine 
在 交互 式 环境 中 输入 以 下 内 容 ， 用 你 自己 的 文件 名 、4 整 数 元 组 和 坐标 
对 ， 来 取代 参数 : 











>>> pyautogui.locateOnScreen('submit.png') 


(643，745，76，29) 
>>> pyautogui.center((643, 745, 70, 29)) 


(678, 759) 
>>> pyautogui.click((678, 759)) 





用 center0 得 到 中 心 坐 标 后 ， 将 click0 坐标 传递 给 函数 ， 束 会 点 击 
屏幕 上 该 区 域 的 中 心 ， 这 个 区 域 匹 配 你 传递 给 locateOnScreen() 函数 的 
图 像 。 


18.9 控制 键盘 


pyautogui 也 有 一 些 疯 数 向 计算 机 发 送 虚 拟 按键 ， 让 你 能 够 填充 表 
格 ， 或 在 应 用 中 输入 文本 。 





18.9.1 通过 键盘 发 送 一 个 字符 串 


pyautogui.typewrite() 函数 问 计 算 机 发 送 虚 拟 按键 。 这 些 按键 产生 什 
么 效 霖 ， 取 决 于 当前 获得 焦点 的 窗口 和 文本 输入 框 。 可 能 逢 要 先 同文 本 
输入 框 发 送 一 次 鼠标 点 击 ， 确 保 它 获得 焦点 。 


举 一 个 简单 的 例子 ， 让 我 们 用 Python 自动 化 在 文件 编辑 窗口 中 输入 
Hello world!。 首 先 ， 打 开 一 个 新 的 文件 编辑 窗口 ， 将 它 放 在 屏幕 的 左上 
角 ， 以 便 pyautogui 点 击 正确 的 位 置 ， 让 它 获 得 焦点 。 然 后 ， 在 交互 式 环 
境 中 输入 以 下 内 容 : 











>>> pyautogui.click(100, 100); pyautogui.typewrite('Hello world!') 





请 注意 ， 在 同一 行 中 放 两 条 命令 ， 用 分 号 隅 开 ， 这 让 交互 式 环 境 不 
会 在 两 个 指令 之 间 提 示 输 入 。 这 防止 了 你 在 clickQO 和 typewrite0 调用 之 
间 ， 不 小 必 让 新 的 窗口 获得 焦点 ， 从 而 让 这 个 例子 失败 。 


_ Python 首先 在 坐标 (100, 100) 处 发 出 虚拟 鼠标 点 击 ， 这 将 点 击 文 
件 编辑 窗口 ， 让 它 获 得 焦点 。typewrite() 函数 调用 将 向 窗口 发 送 文本 
Hello world!， 结 果 就 像 图 18-3。 现 在 有 了 蔡 你 打字 的 代码 ! 
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>>> import pyautogui 
>>> pyautogui.click('left', 100, 100); pyautogui.typewrite('Hello world!") 
>>> 

















图 18-3 用 PyAutogGUI 点 击 文件 编辑 器 窗口 ， 在 其 中 输入 Hello world! 


默认 情况 下 ，typewrite0 函数 将 立即 打印 出 完整 字符 串 。 但 是 ， 你 
可 以 传 入 可 选 的 第 二 参数 ， 在 每 个 字符 之 间 添 加 短 时 间 和 暂停 。 例 如 ， 
pyautogui.typewrite ('Helloworld!', 0.25) 将 在 打出 H 后 等 待 1/4 秒 。 打 出 
e 以 后 再 等 待 14 秒 ， 如 此 等 等 。 这 种 渐进 的 打字 机 效果 ， 对 于 较 慢 的 应 
用 可 能 有 有 用， 它们 处 理 击 键 的 速度 不 够 快 ， 跟 不 上 pyautogui。 


对 于 A 或 ! 这 样 的 字符 ，pyautogui 将 自动 模拟 按 住 Shift 键 。 
18.9.2 键 名 

不 是 所 有 的 键 部 很 容易 用 单个 文本 字符 来 表示 。 例 如 ， 如 何 把 Shift 
键 或 左 箭头 键 表示 为 单个 字符 ? 在 PyAutoGUI 中 ， 这 些 键 表示 为 短 的 字 
符 串 值 : ‘esc’ 表示 Esc 键 ，'enter' 表示 Enter。 

除了 单个 字符 串 参 数 ， 还 可 以 同 typewrite0) 函数 传递 这 些 键 字符 串 


的 列表 。 例 如 ， 以 下 的 调用 表示 按 a 键 ， 然 后 是 b 键 ， 然 后 是 左 箭头 两 
次 ， 最 后 是 X 和 Y 键 : 


























>>> pyautogui.typewrite(['a', 'b', 'left', 'left', 'X', 'Y']) 


因为 按 下 左 咎 头 将 移动 键盘 光标 ， 所 以 这 会 输出 XYab。 表 18-1 列 
出 了 pyautogui 的 键盘 键 字符 串 ， 你 可 以 将 它们 传递 给 typewrite() 函数 ， 
模拟 任何 按键 组 合 。 


也 可 以 查看 pyautogui.KEYBOARD_KEYS 列 表 ， 看 看 pyautogui 接 受 
的 所 有 可 能 的 键 字 符 串 。'shift' 字符 串 指 的 是 左边 的 Shift 键 ， 它 等 价 于 
'shiftleft’. ‘ctrl’. ‘alt' 和 "win' 字符 串 也 一 样 ， 它 们 都 是 指 左边 的 键 。 


表 18-1 PyKeyboard 属 性 
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'pageup', 'pagedown' Page Up 和 Page Down 键 
右 箭 头 


‘up’, ‘down’, ‘left’, 'right' 下 左右 箭头 


'f1', 'f2' f3'"， 等 等 Fl 至 F12 键 


























'volumemute,, 争 首 、 减 小 音量 、 BAG 量 键 〈 有 些 键盘 没有 这 些 键 ， 
"volumedown', 'volumeup' | 但 你 的 操作 系统 仍 能 理解 这 些 模拟 的 按键 ) 
































'capslock', 'numlock', 
'scrolllock' 


'printscreen' Prtsc 或 Print Screen 键 


'winleft', ‘winright' 左右 Win 键 (在 Windows 上 ) 


Caps Lock，Num Lock 和 Scroll Lock 键 

















'command' Command (ÆOS XE) 


'option' Option 键 (在 OS XE) 


18.9.3 按 下 和 释放 键盘 


就 像 mouseDown() 和 mouseUp() 函数 一 样 ，pyautogui.keyDown() 和 
pyautogui. keyUp() 将 向 计算 发 送 虚 拟 的 按键 和 释放 。 它 们 将 根据 参数 发 
送 键 字 符 串 (参见 表 18-1) 。 方 便 起 见 ，pyautogui 提 供 了 





pyautogui.press() 疯 数 ， 它 调用 这 两 个 函数 ， 模 拟 完整 的 击 键 。 
运行 下 面 的 代码 ， 它 将 打印 出 美元 字符 (通过 按 住 Shift 键 并 按 4 得 


>>> pyautogui.keyDown('shift'); pyautogui.press('4'); pyautogui.keyUp('shif 





这 行 代码 按 下 Shift， 按 下 《并 释放 ) 4， 然 后 再 释放 Shift。 如 果 你 
需要 在 文本 输入 框 内 打 一 个 字符 串 ，typewrite() 函数 束 更 适合 。 但 对 于 
接受 单个 按键 命令 的 应 用 ，press( 函数 是 更 简单 的 方式 。 


18.9.4 热 键 组 合 


“ 热 键 ” 或 “快捷 键 " 是 一 种 按键 组 合 ， 它 调用 某 种 应 用 功能 。 找 贝 选 
择 内 容 的 常用 热 键 是 Ctrl-C (在 Windows 和 Linux 上 ) -C (EOS X 
E>) 。 用 户 按 住 Ctrl 键 ,然后 按 C 键 ， 然 后 释放 C 和 Ctrl 键 。 要 用 
pyautogui 的 keyDown() 和 keyUp0( 函数 来 做 到 这 一 点 ， 必 须 输入 以 下 代 
jH: 


pyautogui.keyDown('ctrl') 
pyautogui.keyDown('c') 
pyautogui.keyUp('c') 
pyautogui.keyUp('ctrl') 





XH ZAR. MENEN, Fy MEH pyautogui.hotkey( 函数 ， 它 接受 





SMEFT RES, BOTI T. HIZR. PiX F Ctl- 
C, REDRAR PALE f: 


pyautogui.hotkey(‘ctrl', 'c') 





对 于 更 大 的 热 键 组 合 ， 这 个 函数 特别 有 用 。 在 Word 中 ，Ctrl-Alt- 
Shift-S 热 键 组 合 显 示 Style (样式 ) 窗口 。 不 必 使 用 8 次 不 同 的 函数 调用 
(4 次 keyDown() 调用 和 4 次 keyUp0 调用 ) ， 你 只 要 调用 hotkey Cctrl’, 
‘alt’, 'shift', 's') 。 








在 屏幕 的 左上 角 打 开 一 个 新 的 IDLE 文 件 编辑 窗口 ， 在 交互 式 环境 
中 输入 以 下 内 容 (在 OS X 中 ， 用 ctrl 代替 'alt) : 





>>> import pyautogui，time 


>>> def commentAfterDelay(): 


@ pyautogui.click(100, 100) 


@ pyautogui.typewrite('In IDLE, Alt-3 comments out a line.') 


time.sleep(2) 


3) pyautogui.hotkey('alt', '3') 


>>> commentAfterDelay() 





这 定义 了 一 个 函数 commentAfterDelay0， 在 被 调用 时 ， 将 点 击 文件 
编辑 窗口 ， 让 它 获 得 焦点 @， 输 出 “In IDLE, Alt-3 comments out a 
line” 信 ， 暂 停 2 秒 钟 ， 然 后 模拟 按 下 Alt-3 热 键 〈( 或 OS X 上 的 ctrl-3) 
合 。 这 个 快捷 键 在 当前 行 加 上 两 个 # 字 符 ， 将 它 注释 掉 (在 IDLE 中 编写 
你 自己 的 代码 时 ， 这 是 一 个 有 用 的 技巧 ， 应 该 知道 ) 。 


18.10 复习 PyAutoGUI 的 函数 
本 章 介 绍 了 许多 不 同 函 数 ， 下 面 是 快速 的 汇总 参考 : 


moveTo (x, y) 将 鼠标 移动 到 指定 的 x、y 坐 标 。 





moveRel (xOffset，yOffset〉 相 对 于 当前 位 置 移动 鼠标 。 

dragTo (x, y) 按 下 左 键 移动 鼠标 。 

dragRel (xOffset, yOffset) 按 下 左 键 ， 相 对 于 当前 位 置 移动 鼠标 。 
click (x, y, button) 模拟 点 击 《〈 默 认 是 左 键 ) 。 

rightClick() 模拟 右键 点 击 。 

middleClick() 模拟 中 键 点 击 。 


doubleClick() 模拟 左 键 双 击 。 
mouseDown (x, y, button) 模拟 在 x、y 处 按 下 指定 鼠标 按键 。 
mouseUp (x, y, button) 模拟 在 x、y 处 释放 指定 键 。 


scroll (units) 模拟 滚动 滚轮 。 正 参数 表示 同上 滚动 ， 负 参数 表示 回 
下 滚动 。 


typewrite (message) 键入 给 定 消 轧 字符 串 中 的 字符 。 
typewrite ([key1, key2, key3]) 键入 给 定 键 字符 串 。 
press (key) 按 下 并 释放 给 定 键 。 

keyDown (key) 模拟 按 下 给 定 键 。 

keyUp (key) 模拟 释放 给 定 键 。 


hotkey 〈[key1，key2，key3]) 模拟 按 顺 序 按 下 给 定 键 字符 串 ， 然 
后 以 相反 的 顺序 释放 。 


screenshot() 返回 屏幕 快照 的 Image 对 象 “〈 参 见 第 17 章 关于 Image 对 象 
的 信息 〉。 


18.11 项 目 ， 自 动 填 表 程序 


在 所 有 无 聊 的 任务 中 ， 填 表 是 最 烦人 的 。 到 了 现在 ， 在 最 后 一 章 的 
项 目 中 ， 你 将 搞定 它 。 假 设 你 在 电子 表格 中 有 大 量 的 数据 ， 必 须 重 复 将 
它 输入 到 男 一 个 应 用 的 表 蛙 界面 中 ， 没 有 实习 生 帮 你 完成 。 尺 管 有 些 应 
用 有 导入 功能 ， 让 你 上 传 包含 信息 的 电子 表格 ,但 有 时 候 似乎 没有 其 他 
方法 ， 只 好 不 动脑 子 地 点 击 和 输入 几 个 小 时 。 读 到 了 本 书 的 这 一 章 ， 

你 “当然 ”知道 会 有 其 他 方法 。 


本 项 目的 表单 是 Google Docs 表单 ， 你 可 以 在 
http://nostarch.com/automatestuff 找到 ， 如 图 18-4 所 示 。 














国 Generic Form ò 
€ > CŒ G https://docs.google.com/spreadsheet/viewform?fromen@ ac? © D. f? @ O Z rF 








Generic Form 

This form is for the GUI automation project from Chapter 18 of "Automate the Boring Stuff with 
Python”, available at http://automatetheboringstuff.com. 

* Required 


Name * 


peo e] 


Greatest Fear(s) 














What is the source of your wizard powers? 
[Wand v | 








Robocop was the greatest action movie of the 1980s. 
W i a E 


Strongly Disagree © © © © Strongly Agree 


Additional Comments 














Submit 
Never submit passwords through Google Forms. 











图 18-4 本 项 目 用 到 的 表单 
总 的 来 说 ， 你 的 程序 应 该 做 到 : 
点 击 表 单 的 第 一 个 文本 字段 。 
WIRA, TERE MELA BEAM E o 
点 击 Submit 按 钮 。 
用 下 一 组 数据 重复 这 个 过 程 。 


这 意味 看 代码 需要 做 下 列 事情 : 








。 调用 pyautogui.click() 函数 ， 点 击 表 单 和 Submit 按 钮 。 
e 调用 pyautogui.typewrite() 函数 ， 在 输入 栏 输入 文本 。 
。 处 理 KeyboardInterrupt 异 常 ， 这 样 用 户 能 按 Ctrl-C 键 退出 。 


打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保存 为 formFiller.py。 





sqb, EE bk LE TR 
第 1 步 : 弄 清楚 步 又 


在 编写 代码 之 前 ， 你 需要 弄 清楚 填写 一 次 表格 时 ， 需 要 的 准确 击 刍 
和 鼠标 点 击 。18.4 节 中 的 mouseNow.py 脚 本 可 以 帮助 你 弄 清楚 确切 的 鼠 
标 坐 标 。 你 只 需要 知道 第 一 个 文本 输入 栏 的 坐标 。 在 点 击 第 一 个 输入 栏 
之 后 ， 你 可 以 Tab 键 ， 将 焦点 移 到 下 一 个 输入 栏 。 这 让 你 不 必 弄 清楚 每 
一 个 输入 栏 的 x、y 坐 标 。 


下 面 是 在 表单 中 输入 数据 的 步 又 ; 

1. 点 击 Name 输 入 栏 ( 在 将 浏览 器 窗口 最 大 化 后 ， 用 mouseNow.py 
程序 来 确定 坐标 。 在 OS X 上 ， 可 能 需要 点 击 两 次 : 一 次 让 浏览 器 获得 
焦点 ， 第 二 次 让 Name 输 入 栏 获得 焦点 ) 。 

2. 键入 名 称 ， 然 后 按 Tab 键 。 

3. 键入 最 大 的 恐惧 (greatest fear) ， 然 后 按 Tab 键 。 

4. 按 同 下 键 适当 的 次 数 ， 选 择 麻 力 源 (wizard power source) : 一 
次 是 Wand， 两 次 是 Amulet， 三 次 是 Crystal ball， 四 次 是 money。 人 然后 按 
Tab 键 (请 注意 ， 在 OS X 中 ， 你 必须 为 每 次 选择 多 按 一 次 回 下 键 。 对 于 
某 些 浏览 器 ， 你 也 需要 按 回 车 键 ) 。 


5. 按 辐 右键 ， 选 择 RoboCop 问 题 的 答案 。 按 一 次 是 2， 两 次 是 3， 
三 次 是 4， 四 次 是 5， 或 按 空格 键 选 择 1( 它 是 默认 加 膨 的 ) 。 然 后 按 Tab 
键 。 























6. 键入 附加 的 备注 ， 然 后 按 Tab 键 。 
7. EEE, Ai Submit Zt. 


8. 在 提交 表 蛙 后 ， 浏 览 器 将 转 到 一 个 页 面 。 然 后 你 需要 扣 击 一 个 


链接 ， 返 回 到 表单 页 面 。 


请 注意 ， 如 琳 你 稍 后 再 次 运行 这 个 程序 ， 可 能 需要 更 新 鼠标 点 击 的 
坐标 ， 因 为 浏览 器 窗口 可 能 已 经 改变 了 位 置 。 要 避免 这 一 点 ， 请 一 直 确 
保 浏 览 占 窗口 最 大 化 ， 然 后 再 寻找 第 一 个 表单 输入 框 的 坐标 。 而 且 ， 不 
同 操作 系统 上 的 不 同 浏 览 右 ， 工 作 起 来 可 能 与 这 里 的 步 又 稍 有 不 同 ， 所 
以 在 运行 程序 之 前 ， 要 确保 这 些 击 键 组 合适 合 你 的 计算 机 。 




















在 浏览 器 中 载 入 示例 表单 〈 图 18-4) ， 并 将 浏览 器 窗口 最 大 化 。 打 
开 一 个 新 的 终端 窗口 或 命令 行 窗 口 ， 来 运行 nouseNow.py 脚 本 ， 然 后 将 
鼠标 放 在 输入 框 上 ， 弄 清楚 它 的 x、y 坐 标 。 这 些 数 字 将 赋 给 程序 中 的 变 
量 。 同 时 ， 找 出 蓝 色 Submit 按 钮 的 x、y 坐 标 和 RBG 值 。 这 些 值 将 分 别 赋 
给 变量 submitButton 和 submitButtonColor。 


接 下 来 ， 在 表单 中 填 入 一 些 假 的 数据 ， 点 击 Submit。 你 需要 看 到 下 
一 个 页 面 的 样子 ， 以 便 使 用 程序 mouseNow.py 寻 找 这 个 页 面 中 Submit 
another response 链 接 的 坐标 。 


让 你 的 源 代 码 看 起 来 像 下 面 的 样子 。 确 保 用 自己 测试 得 到 的 坐标 代 
REA VEL: 














#! python3 
# formFiller.py - Automatically fills in the form. 


import pyautogui, time 


# Set these to the correct coordinates for your computer. 
nameField = (648 


submitButton = (651 


817 


submitButtonColor = (75 


141 


249 


submitAnotherLink = (760 


224 


# TODO: 


# TODO: 


# TODO: 


# TODO: 


# TODO: 


Give 


Wait 


Fill 


Fill 


Fill 


the user a chance to kill the script. 
until the form page has loaded. 

out the Name Field. 

out the Greatest Fear(s) field. 


out the Source of Wizard Powers field. 


# TODO: Fill out the RoboCop field. 

# TODO: Fill out the Additional Comments field. 
# TODO: Click Submit. 

# TODO: Wait until form page has loaded. 


# TODO: Click the Submit another response link. 








现在 你 需要 实际 想 要 输入 这 张 表格 的 数据 。 在 真实 世界 中 ， 这 些 数 





据 可 能 来 自 电 子 表格 、 纯 文本 文件 或 茶 个 网 站 。 可 能 需要 额外 的 代码 ， 
将 数据 加 载 到 程序 中 。 但 对 于 这 个 项 目 ， 只 需要 将 这 些 数据 便 编码 给 一 
个 变量 。 在 程序 中 加 入 以 下 代码 : 








#! python3 
# formFiller.py - Automatically fills in the form. 


--snip 


formData = [{'name': ‘Alice’, 'fear': '‘eavesdroppers', ‘source’: 'wand', 


"robocop': 4, ‘comments’: 'Tell Bob I said hi.'}, 


{'name': 'Bob', 'fear': 'bees', ‘source’: ‘amulet', 'robocop': 4, 


"comments': 'n/a'}, 


{'name': 'Carol', 'fear': 'puppets', ‘source’: ‘crystal ball’, 


"robocop': 1, ‘comments’: "Please take the puppets out of the 


break room. '}, 


{'name': 'Alex Murphy', 'fear': 'ED-209', 'source': 'money', 


'robocop': 5, 'comments': 'Protect the innocent. Serve the public 


trust. Uphold the law.'}, 


--snip 








formData 列 表 包 含 4 个 字典 ， 针 对 4 个 不 同 的 名 字 。 每 个 字典 都 有 文 
本 字段 的 名 字 作 为 键 ， 响 应 作为 值 。 最 后 一 点 准备 是 设置 pyautogui 的 





PAUSE 变 量 ， 在 每 次 函数 调用 后 等 待 半 秒 钟 。 在 程序 的 formData 赋 值 语 
名 后 ， 添 加 下 面 的 代码 : 


pyautogui.PAUSE = 0.5 
第 3 步 : 开始 键入 数据 


for 循 环 将 迭代 formData 列 表 中 的 每 个 字典 ， 将 字典 中 的 值 传递 给 
pyautogui 函 数 ， 最 后 在 文本 输入 区 输入 。 


在 程序 中 添加 以 下 代码 : 





#! python3 
# formFiller.py - Automatically fills in the form. 


--snip 


for person in formData: 


# Give the user a chance to kill the script. 


print('>>> 5 SECOND PAUSE TO LET USER PRESS CTRL-C 


<<<") 


@ time.sleep(5) 


# Wait until the form page has loaded. 


while not pyautogui.pixelMatchesColor(submitButton[0], submitButton[ 


submitButtonColor): 


time.sleep(@.5) 


--snip 


作为 一 个 小 的 安全 功能 ， 该 脚本 有 5 秒 暂 停 @Q@。 如 果 发 现 程 序 在 做 
一 些 预 期 之 外 的 事 ， 这 让 用 户 有 机 会 按 Ctrl-C (或 将 鼠标 移 到 屏幕 的 左 
上 角 ， 触 发 FailSafeException 异 常 )， 从 而 关闭 程序 。 然 后 程序 等 待 ， 
直到 Submit 按 钮 的 颜色 可 见 信 ， 这 让 程序 知道 ， 表 单 页 面 已 经 加 载 了 。 
回忆 一 下 ， 你 在 第 2 步 中 己 经 弄 清楚 了 坐标 和 颜色 信息 ， 并 将 它们 保存 
在 submitButton 和 submitButtonColor 变 量 中 。 要 调用 
pixelMatchesColor(0)， 束 传递 坐标 submitButton[0] 和 submitButton[1]， 以 
及 颜色 submitButtonColor。 


在 等 待 Submit 按 钮 颜色 可 见 的 代码 之 后 ， 添 加 以 下 代码 : 








#! python3 
# formFiller.py - Automatically fills in the form. 


- -snip 


@ print('Entering %s info...' % (person[ 'name'])) 


@ pyautogui.click(nameField[@], nameField[1]) 


# Fill out the Name field. 


© pyautogui.typewrite(person['name'] + '\t') 


# Fill out the Greatest Fear(s) field. 


(4) pyautogui.typewrite(person['fear'] + '\t') 


--snip 





我 们 添加 了 偶尔 的 printO 调用 ， 在 终端 窗 口中 显示 程序 的 状态 ， 让 
用 户 知道 进展 。@ 





既然 程序 知道 表格 已 经 加 载 ， 就 可 以 调用 dlick()， 点 击 Name 输 入 框 


全 ， 并 调用 typewrite()， 输 入 person['name'] PIN FF BOQ. FAB AR FE 
加 上 了 \t' 字 符 ， 模 拟 按 下 Tab 键 ， 它 将 输入 焦点 转 辣 下 一 个 输入 框 ， 
Greatest Fear (s) 。 男 一 次 typewrite() 调用 ， 将 在 这 个 输入 框 中 输入 
person['fear] 中 的 字符 串 ， 然 后 用 Tab 跳 到 表格 的 下 一 个 输入 框 @@。 


第 4 步 : 处 理 选 择 列 表 和 单 选 按钮 

“wizard powers” 问 题 的 下 拉 沈 单 和 RoboCop 字 段 的 单 选 按钮 ， 处 理 
起 来 比 文本 输入 框 需 要 更 多 技巧 。 要 用 鼠标 点 选 这 些 选项 ， 你 必须 摘 清 
楚 每 个 可 能 选项 的 x、y 坐 标 。 然 而 ， 用 箭头 键 来 选择 会 比较 容易 。 


在 程序 中 加 入 以 下 代码 : 





#! python3 
# formFiller.py - Automatically fills in the form. 


--snip 


# Fill out the Source of Wizard Powers field. 


© if person['source'] == 'wand': 


@ pyautogui.typewrite(['down', '\t']) 


elif person['source'] == 'amulet': 


pyautogui.typewrite(['down', 'down', '\t']) 


elif person['source'] == 'crystal ball': 


pyautogui.typewrite(['down', 'down', 'down', '\t']) 


elif person['source'] == 'money': 


pyautogui.typewrite(['down', ‘down', ‘down’, ‘down', '\t']) 


# Fill out the RoboCop field. 


if person['robocop'] == 


pyautogui.typewrite([' ', '\t']) 


elif person['robocop'] == 2: 


pyautogui.typewrite(['right', '\t']) 


elif person['robocop'] == 3: 


pyautogui.typewrite(['right', ‘right’, '\t']) 


elif person['robocop'] == 


pyautogui.typewrite(['right', ‘right’, ‘right’, '\t']) 


II 
ul 


elif person['robocop'] = 


pyautogui.typewrite(['right', ‘right', ‘right’, ‘right’, '\t']) 


--snip 





在 下 拉 荣 单 获 得 焦点 后 《回忆 一 下 ， 你 写 了 代码 ， 在 填充 Greatest 
Fear (s) 输入 框 后 模拟 了 按 Tab 键 ) ， 按 下 加 下 箭头 ， 就 会 移动 到 选 
择 列 表 的 下 一 项 。 根 据 person['source'] 中 的 值 ， 你 的 程序 应 该 发 出 几 次 
同 下 按键 ， 然 后 再 切换 到 下 一 个 输入 区 。 如 果 这 个 用 户 词典 中 的 
'source' 值 是 "wand @， 我 们 模拟 按 向 下 键 一 次 (选择 Wand) ， 并 按 Tab 
O. WE 'source' 键 的 值 是 'amulet'"， 模 拟 按 同 下 键 两 次 ， 并 按 Tab 
键 。 对 其 他 可 能 的 值 也 是 类 似 。 


RoboCop 问 题 的 单 选 按钮 ， 可 以 用 问 右 键 来 选择 。 或 者 ， 如 果 你 想 
选择 第 一 个 选项 全 ， 就 按 空 格 键 @@. 


第 5 步 : GEIR IPSS FF 


可 以 用 函数 typewrite() 填写 备注 输入 框 ， 将 person['comments'] 作为 
参数 。 你 可 以 另外 输入 所， 将 焦点 移 到 下 一 个 输入 框 或 Submit 按 钮 。 当 
Submit 按 钮 获得 焦点 后 ， 调 用 pyautogui.press Center) ， 模 拟 按 下 回 车 
键 ， 提 交 表 单 。 在 提交 表单 之 后 ， 程 序 将 等 待 5 秒 ， 等 下 一 页 加 载 。 


在 新 页 面 加 载 之 后 ， 它 会 有 一 个 Submit another response 链 接 ， 让 浏 
览 器 转 同 一 个 新 的 、 全 空 的 表单 页 面 。 在 第 二 步 ， 你 已 将 这 个 链接 的 坐 
标 作 为 元 组 保存 在 submitAnotherLink 中 ， 所 以 将 这 些 坐 标 传递 给 
pyautogui.click()， 点 击 这 个 链接 。 


新 的 表单 准备 好 后 ， 脚 本 的 外 层 for 循 环 将 继续 下 一 次 迭代 ， 在 表单 
中 输入 下 一 个 人 的 信息 。 


添加 以 下 代码 ， 完 成 你 的 程序 : 





#! python3 
# formFiller.py - Automatically fills in the form. 


--snip 


# Fill out the Additional Comments field. 


pyautogui.typewrite(person[ 'comments'] + '\t') 


# Click Submit. 


pyautogui.press('enter') 


# Wait until form page has loaded. 


print('Clicked Submit.') 


time.sleep(5) 


# Click the Submit another response link. 


pyautogui.click(submitAnotherLink[@], submitAnotherLink[1]) 





在 主 for 循 环 完成 后 ， 程 序 应 该 已 经 插入 了 每 个 人 的 信息 。 在 这 个 例 





子 中 ， 只 有 4 个 人 要 输入 。 但 如 果 有 4000 个 人 ， 那 么 编程 来 完成 这 个 任 
务 将 节省 大 量 的 输入 时 间 。 


18.12 小 结 


用 pyautogui 模 块 实 现 GUI 目 动 化 ， 通 过 控制 键盘 和 鼠标 ， 让 你 与 计 
算 机 上 的 应 用 程序 交互 。 虽 然 这 种 方式 相当 灵活 ， 可 以 做 任何 人 类 用 户 
做 的 事情 ， 但 也 有 不 足 之 处 ， 即 这 些 程序 对 它们 的 点 击 和 键入 是 相当 言 
目的 。 在 编写 GUI 目 动 化 程序 时 ， 请 试 着 确保 它们 在 得 到 错误 指令 时 快 





速 朋 误 。 骨 溃 很 烦人 ， 但 比 程序 继续 错误 要 好 得 多 。 


利用 pyautogui， 你 可 以 在 屏幕 上 移动 鼠标 ， 模 拟 鼠 标点 击 、 击 键 和 
快捷 键 。pyautogui 模 块 也 能 检查 屏幕 上 的 颜色 ， 让 GUI 上 自动 化 程序 对 屏 
幕 内 容 有 足够 的 了 解 ， 知 道 它 是 否 有 偏 甜 。 甚 至 可 以 同 它 提供 一 个 屏幕 
快照 ， 让 它 找 出 你 希望 点 击 的 区 域 坐标 。 


可 以 组 合 使 用 所 有 这 些 pyautogui 功 能 ， 在 计算 机 上 自动 化 各 种 无 脑 
的 重复 任务 。 实 际 上 ， 看 着 上 鼠标 自己 移动 ， 看 着 文本 目 动 出 现在 屏幕 
上 ， 这 是 彻头彻尾 的 催眠 。 为 什么 不 用 节省 下 来 的 时 间 ， 和 舒 舒 服 服 地 坐 
着 ， 看 着 程序 为 你 工作 ? 看 着 你 的 聪明 才智 帮 你 省 去 无 聊 的 工作 ， 上 肯定 
会 让 你 感到 满意 。 




















18.13 习题 
1， 如 何 触 发 pyautogui 的 失效 保护 来 停止 程序 ? 
2. 什么 函数 返回 当前 的 分 辨 率 ? 
3. 什么 函数 返回 鼠标 当前 位 置 的 坐标 ? 


4. pyautogui.moveTo() 和 pyautogui.moveRel() 函数 之 间 的 区 别 是 什 





DAY 
~ 


5. 什么 函数 用 于 拖 放 鼠标 ? 

6. 调用 什么 函数 将 蔡 你 键入 字符 串 "Hello world!"? 
7. 如 何 模 拟 按 下 向 左 键 这 样 的 特殊 键 ? 

8. 如 何 将 当前 屏幕 的 内 容 保存 为 图 形 文件 并 命名 为 


screenshot.png ? 


9. 什么 代码 能 够 设置 每 次 pyautogui 函 数 调用 后 暂停 两 秒 钟 ? 





18.14 实践 项 日 


作为 实践 ， 编 程 完成 下 面 的 内 容 。 
18.14.1 看 起 来 很 忙 


许多 即时 通信 程序 通过 一 段 时 间 鼠 标 不 动 〈 例 如 10 分 钟 ) ， 来 判断 
你 空 闪 或 离开 了 计算 机 。 也 许 你 想 从 果子 边 汐 走 一 段 时 间 ， 但 不 想 让 别 
人 看 到 你 的 即时 通信 软件 转 为 空 几 状态 。 请 编写 一 段 脚本 ， 每 隔 10 秒 钟 
稍微 动 一 下 鼠标 。 这 种 移动 应 该 相当 小 ， 以 便 在 脚本 运行 时 ， 如 宁 你 需 
要 使 用 计算 机 ， 它 也 不 会 给 你 制造 麻烦 。 


18.14.2 即时 通信 机 如 人 
Google Talk, Skype. Yahoo Messenger、AIM 和 其 它 即时 通信 应 用 


通 第 使 用 专 有 协议 ， 让 其 他 人 很 难 通 过 编写 Python 模 块 与 这 些 程序 交 
互 。 但 即使 这 些 专 有 协议 ， 也 不 能 阻止 你 编写 GUI 上 自动 化 工具 。 


Google Talk 应 用 有 一 个 搜索 条 ， 让 你 在 输入 朋友 列表 中 的 用 户 名 并 


他 即时 通信 应 用 也 有 类 似 的 方式 ， 来 打开 新 的 消息 窗口 。 请 编写 一 个 应 
用 程序 ， 回 朋友 列表 中 选 定 的 一 组 人 发 出 一 条 通知 消息 。 程 序 应 该 能 够 
处 理 寞 第 情况 ， 比 如 朋友 离线 ， 聊 天 窗口 出 现在 屏幕 上 不 同 的 位 置 ， 或 
确认 对 话 框 打 断 输入 消息 。 程 序 必 须 使 用 屏幕 快照 ， 指 导 它 的 GUI 区 
互 ， 并 在 虚拟 按键 及 送 之 前 采用 各 种 检测 方式 。 


Wp es 
YES 


eR o 的 测试 账户 ， 这 样 就 不 会 在 编写 这 个 程序 时 ， 不 小 心 打 扰 真 正 的 朋 





























18.14.3 玩 游 戏 机 器 人 指南 


有 一 个 很 不 错 的 指南 名 为 *How to Build a Python Bot That Can Play 
Web Games”， 网 址 是 http://nostarch.com/automatestuff/。 这 份 指南 解释 了 
如 何 用 Python 创建 一 个 GUI 自动 化 程序 ， 玩 一 个 名 为 Sushi Go Round 的 
Flash 游 戏 。 这 个 游戏 需要 点 击 正确 的 成 分 按钮 ， 填 写 客户 的 寿司 订单 。 
填写 无 错 订 单 越 快 ， 得 分 就 越 高 。 这 个 任务 特别 适合 GUI 自动 化 程序 ， 
因为 可 以 作 浆 得 到 高 分 ! 这 份 指南 包含 了 本 章 介 绍 的 许多 主题 ， 也 涉及 
PyAutoGUI 的 基本 图 像 识别 功能 。 





附录 A RR TT RR 


除了 Python 自 带 的 标准 库 ， 其 他 开发 者 写 了 一 些 自己 的 模块 ， 进 一 
步 扩 展 了 Python 的 功能 。 安 装 第 三 方 模块 的 主要 方法 是 使 用 Python 的 pip 
工具 。 这 个 工具 从 Python 软件 基金 会 的 网 站 https:/pypi.python.org/ 安全 
地 下 载 Python 模 块 ， 并 安装 到 您 的 计算 机 上 。PyPI 或 Python 包 索引 ， 整 
像 是 Python 模块 的 免费 应 用 程序 商店 。 





A.1 pip 工 具 


pip 工 具 的 可 执行 文件 在 Windows 上 称 为 pip， 在 OS X 和 Linux 上 称 为 
pip3. 7£Windows_-., pipfzJ-C:\Python34\Scripts\pip.exe. 7EOS XE, 
它 位 于 /Library/ Frameworks/Python.framework/Versions/3.4/bin/pip3. 7£ 
Linux 上 ， 它 位 于 /usr/bin/pip3。 


虽然 在 Windows 和 OS X 上 pip 会 随 Python3.4 自 动 安装 ， 但 在 Linux 
上 ， 必 须 单独 安装 。 要 在 Ubuntu 或 Debian Linux 上 安装 pip3， 就 打开 一 
个 新 的 终端 窗口 ， 输 入 get install python3-pip。 要 在 Fedora Linux 上 安装 
pip3， 就 在 终端 窗口 输入 install python3 -pip。 为 了 安装 这 个 软件 ， 需 要 
输入 计算 机 的 管理 员 密 人 码 。 


A.2 安装 第 三 方 模块 


pip 工 具 需 要 在 命令 行 中 运行 : 向 它 传 入 install 命 令 ， 跟 上 想 要 安装 
的 模块 名 称 。 例 如 ， 在 Windows 上 ， 会 输入 pip install ModuleName， 其 
中 ModuleName 是 模块 的 名 称 。 在 OS X 和 Linux， 必 须 加 sudo 前 绥 来 运行 
pip3， 授 予 管理 权限 来 安装 该 模块 。 需 要 输入 sudo pip3 install 
ModuleName. 


如 果 你 已 经 安装 了 模块 ， 但 想 升 级 到 PyPI 上 提供 的 最 新 版 本 ， 就 运 
行 pip install -U ModuleName〔 或 在 OS X 和 Linux 上 运行 pip3 install -U 
ModuleName) 。 


安装 模块 后 ， 可 以 在 交互 式 环境 中 运行 import ModuleName， 测 试 





装 。 


= 
H+ 


安装 是 否 成 功 。 如 果 未 显示 错误 信息 ， 就 可 以 认为 该 模块 已 经 成 功 安 





运行 下 面 列 出 的 命令 ， 你 可 以 安装 本 书 中 介绍 的 所 有 模块 (请 记 
如 果 在 OS X 或 Linux 上 ， 用 pip3 替 代 pip) 。 


pip install send2trash 

pip install requests 

pip install beautifulsoup4 

pip install selenium 

pip install openpyxl 

pip install PyPDF2 

pip install python-docx〈 安 装 python-docx， 而 不 是 docx) 
pip install imapclient 

pip install pyzmail 

pip install twilio 

pip install pillow 

pip install pyobjc-core 〈 仅 在 OS X 上 ) 
pip install pyobjc《〈 仅 在 OS XE) 

pip install python3-xlib 〈 仅 在 Linux 上 ) 
pip install pyautogui 


Was ee 


对 于 OS XHP: pyobjc 模 块 需要 20 分 钟 或 更 长 的 时 间 来 安装 ， 因 此 ， 如 果 它 需要 一 段 时 间 ， 
不 要 恢 惰 。 也 应 该 先 安装 pyobjc 核 心 模块 ， 这 将 减少 整体 安装 时 间 。 




















附录 B 运行 程序 


如 果 你 在 IDLE 的 文件 编辑 器 中 打开 了 一 个 程序 ， 运 行 它 很 简单 ， 
按 F5 或 选择 Runew Run Module 荣 单项 。 这 是 在 编程 时 运行 程序 的 最 简单 
方法 ， 但 打开 IDLE 来 运行 已 完成 的 程序 可 能 有 点 累 。 执 行 Python 脚 本 还 
有 更 方便 的 方法 。 























B.1 第 一 行 


所 有 Python 程 序 的 第 一 行 应 该 是 要 行 ， 它 告诉 计算 机 你 想 让 Python 
来 执行 这 个 程序 。 该 行 以 机 开始 ， 但 剩 下 的 内 容 取决 于 操作 系统 。 


。 在 Windows 上 ， 第 一 行 是 #! python3。 
e 在 OS X, —4T xe #! /usr/bin/env python3。 
。 在 Linux 上， 第 一 行 是 #! /usr/bin/python3。 
没有 太行 ， 你 也 能 从 IDLE 运 行 Python 脚 本 ， 但 从 命令 行 运行 它们 就 
需要 这 一 行 。 


B.2 在 Windows 上 运行 Python 程序 


在 Windows 上，Python3.4 的 解释 程序 位 于 C:\Python34\python.exe。 
或 者 ， 方 便 的 py.exe 程 序 将 读 取 .py 文件 源 代码 项 部 的 提 行 ， 并 针对 该 及 
本 运行 相应 的 Python 版 本 。 如 果 计 算 机 上 安装 了 多 个 版 本 的 Python， 
py.exe 程 序 确保 运行 正确 版 本 的 Python 程 序 。 


为 了 方便 运行 你 的 Python 程 序 ， 可 以 创建 一 个 .BAT 批 处 理 文件 ， 用 
py.exe 来 运行 Python 程序 。 要 创建 一 个 批 处理 文 件 ， 就 创建 一 个 新 的 文 
本 文件 ， 包 含 一 行内 容 ， 类 似 下 面 这 样 : 





@py.exe C:\path\to\your\pythonScript.py %* 


用 你 自己 的 程序 的 绝对 路 径 替 换 该 路 径 ， 将 这 个 文件 以 .bat 文件 扩 
展 名 保存 〈 例 如 ，pythonScript.bat) 。 这 个 处 理 文 件 将 使 你 不 必 在 每 次 
运行 时 ， 都 输入 Python 程序 完整 的 绝对 路 径 。 我 建议 将 所 有 的 批 处 理 文 
件 和 .py 文件 放 在 一 个 文件 夹 中 ， 如 C:\MyPythonScripts 或 
C:\Users\Y ourName\PythonScripts - 





fEWindows_-, C:\MyPythonScripts LFR ViZ US IM E R AF, 
这 样 就 可 以 从 Run 对 话 框 中 运行 其 中 的 批 处 理 文件 。 要 做 到 这 一 点 ， 请 
修改 PATH 环境 变量 。 单 击 “ 开 始 ? 按 钮 ， 并 输入 “Edit environment 
variables for your account〈 编 辑 账户 的 环境 变量 ) ”。 在 你 开始 输入 时 ， 
该 选项 应 自动 完成 。 弹 出 的 环境 变量 窗口 如 图 B-1 所 示 。 





User variables for Al 


Variable Value 

PATH C:\Users\Al\AppData\Roaming\npm;C:\... 
TEMP %USERPROFILE%\AppData\Local\Temp 
TMP %®USERPROFILE%\AppData\Local\T emp 


System variables 


Variable Value 

3 
PATHEXT -COM;.EXE;.BAT;.CMD;.VBS;.VBE;.JS;.... 
PP22_EXE4]_JA... C:\Program Files (x86)\Java\jre7 
PROCESSOR_AR... AMD64 





图 B-1 Windows 的 环境 变量 窗口 


从 系统 变量 中 ， 选 择 Path 变 量 ， 然 后 单 击 “ 编 辑 "?。 在 “变量 值 ” 文 本 
TPR, 退 加 一 个 分 号 ， 键 入 C: \MyPythonScripts, 然后 单 击 “确定 >。 现 
在 你 只 需 按 下 Win-R 并 输入 脚本 的 名 称 ， 就 能 运行 CNMyYPythonScripts 文 
件 夹 中 的 Python 脚 本 。 例 如 ， 运 行 pythonScript， 将 运行 
pythonScript.bat， 这 使 你 不 必 从 Run 对 话 框 运行 整个 命令 py.exe 
C:\MyPythonScripts\pythonScript.py。 


B.3 在 OS X 和 Linux 上 运行 Python 程序 


en XE, i&#£Applications > Utilities > Terminal tf 弹出 一 个 终端 
窗口 。 终 端 窗口 让 你 用 纯 文 本 在 计算 机 上 输入 命令 ， 而 不 是 通 过 图 形 界 








面 点 击 。 要 在 Ubuntu Linux 上 打开 终端 窗口 ， 就 按 Win (Super) 键 ， 
调 出 Dash 并 输入 Terminal。 


终端 窗口 将 从 你 的 用 户 账 户 的 主 文件 夹 开 始 。 如 果 我 的 用 户 名 是 
sweigart, OS X 上 主 文件 夹 在 /Users/asweigart，Linux 上 
在 /home/asweigart。 波 浪 纯 字符 (~) 是 主 文件 夹 的 快捷 方式 ， 所 以 你 可 
以 输入 cd ~ 切换 到 主 文件 来 。 也 可 以 使 用 cd 命令 ， 将 当前 工作 目录 改变 
到 任何 其 他 目录 。 在 OS X 和 Linux 上 ，pwd 命 令 将 打印 当前 工作 目录 。 


为 了 运行 Python 程序 ， 将 你 的 .py 文件 保存 到 你 的 主 文 件 夹 。 然 后 ， 
更 改 .py 文件 的 权限 ， 运 行 chmod +x pythonScript.py， 使 之 成 为 可 执行 文 
件 。 文 件 权 限 超 出 了 本 书 的 范围 ， 但 如 果 你 想 在 终端 窗口 运行 程序 ， 束 
需要 对 Python 文件 运行 此 命令 。 这 样 做 之 后 ， 当 你 打开 一 个 终端 窗口 ， 
输入 ./pythonScript,py， 就 能 运行 该 脚本 。 脚 本 顶部 的 太行 会 告诉 操作 系 
统 ， 在 哪里 可 以 找到 Python 解释 器 。 











B.4 运行 Python 程序 时 禁用 晰 言 


你 可 以 禁用 Python 程序 中 的 assert 语 句 ， 从 而 稍稍 提高 性 能 。 从 终端 
窗口 运行 Python 时 ， 在 python 或 python3 之 后 和 .py 文件 之 前 加 上 -O 开 关 。 
这 将 运行 程序 的 优化 版 本 ， 跳 过 断言 检查 。 


附录 C 习题 答案 


本 附录 包含 每 章 末 习题 的 答案 。 我 强烈 建议 你 花 时 间 解 答 这 些 习 
题 。 编 程 不 只 是 记 住 语法 和 函数 名 列表 。 像 学 习 外 语 一 样 ， 练 习 越 多 ， 
收获 就 越 大 。 有 许多 网 站 也 包含 编程 习题 。 你 可 以 在 
http://nostarch.com/automatestuff/ 找到 这 些 网 站 的 列表 。 








第 1 章 
1. 操作 符 是 +、-、* 和 /。 值 是 hello'、-88.8 和 5。 
2. 字符 串 是 'spam'"， 变 量 是 spam。 字 符 串 总 是 以 引号 开始 和 结束 。 
3. 本 章 介 绍 的 3 种 数据 类 型 是 整数 、 浮 点 数 和 字符 串 。 


4. 表达 式 是 值 和 操作 符 的 结合 。 所 有 表达 式 都 求 值 为 ( 即 归 约 
AI) —“ME 


5. 表达 式 求 值 为 一 个 值 。 语 句 不 是 这 样 。 


6. bacon 变 量 被 设置 为 20。 表 达 式 bacon + 1 并 没有 对 bacon 重 新 赋 
值 〈 重 新 赋值 需要 一 个 赋值 语句 : bacon =bacon+1) 。 


7. 两 个 表达 式 都 求 值 为 字符 串 'spamspamspam'。 
8. 变量 名 不 能 以 数字 开始 。 


9. int()、float() 和 str() 函数 将 返回 传 入 值 的 整 型 、 浮 点 型 和 字符 串 
版 本 。 


10， 该 表达 式 导 致 错误 是 因为 ，99 是 一 个 整数 ， 只 有 字符 串 能 
+ 操作 符 与 其 他 字符 串 连 接 。 正 确 的 方式 是 Thave eaten ' + str(99) + ' 
burritos.'. 


Fete ry SE. 


= 2 Ft 


1. True 和 False， 使 用 大 写 的 T 和 F， 其 他 字母 是 小 写 。 

2. and、or 和 mot。 

3. True and True 是 True。 
True and False 是 False。 
False and True 是 False。 
False and False 是 False。 
True or True 是 True。 
True or False 是 True。 
False or True 是 True。 
False or False 是 False。 
not True 是 False。 
not False 是 True。 

4. False 
False 
True 
False 


False 


6. == 是 等 于 操作 符 ， 它 比较 两 个 值 ， 求 值 为 一 个 布尔 值 ， 而 = 是 赋 
值 操作 符 ， 将 值 保存 在 变量 中 。 


m 7. 条 件 是 一 个 表达 式 ， 它 用 于 控制 流 语句 中 ， 求 值 为 一 个 布尔 


8. 3 个 语句 块 是 if 语 句 中 的 全 部 内 容 ， 以 及 print (bacon' ) 和 
print (ham') 这 两 行 。 





print('eggs') 
if spam > 5: 
print('bacon') 
else: 
print('ham') 


print('spam') 





9. 代码 : 


if spam == 1: 
print('Hello') 
elif spam == 2: 
print('Howdy') 
else: 


print('Greetings!') 





10. 按 Ctrl-C 来 停止 陷 在 无 限 循环 中 的 程序 。 


11. break 语 句 将 执行 移出 循环 ， 接 着 循环 之 后 执行 。continue 语 句 
将 执行 移 到 循环 的 开始 。 


12. 它们 都 是 做 同样 的 事 。range (10) 调用 产生 的 范围 是 从 0 直到 
《但 不 包括 ) 10, range (0, 10) 明确 告诉 循环 从 0 开始 ，range (0， 
10, 1) 明确 告诉 循环 每 次 迭代 让 变量 增加 1。 

13. 代码 : 


for i in range(1, 11): 


print(i) 


WR: 


i=l 

while i <= 10: 
print(i) 
i=i+d1 





14. 该 函数 的 调用 方式 是 spam.bacon()。 








1. 函数 减少 了 重复 的 代码 。 这 让 程序 更 短 ， 更 容易 阅读 ， 更 容易 





函数 中 的 代码 在 函数 被 调用 时 执行 ， 而 不 是 在 函数 定义 时 。 
3. def 语 句 定 义 了 《 即 创建 了 ) 一 个 函数 。 


4. 函数 包含 def 语 句 和 在 def 子 句 中 的 代码 。 函 数 调用 让 程序 执行 转 
到 冰 数 内 ， 函 数 调用 求 值 为 该 函数 的 返回 值 。 


.在 调用 一 个 函数 时 ， 创 建 了 一 个 全 局 函数 和 一 个 局 部 作用 域 。 
6. 水 数 返 回 时 ， 局 部 作用 域 被 销 贤 ， 其 中 所 有 的 变量 都 被 遗忘 
7. 返回 值 是 函数 调用 求 值 的 结果 。 像 所 有 值 一 样 ， 返 回 值 可 以 作 
为 表达 式 的 一 部 分 。 
8. 如 果 函 数 没 有 return 语 句 ， 它 的 返回 值 就 是 None。 


9. global 语句 强制 函数 中 的 一 个 变量 引用 该 全 局 变量 。 
10. None 的 数据 类 型 是 NoneType。 


11. import 语 句 导 入 了 areallyourpetsnamederic 模 块 (顺便 说 一 句 ， 
这 不 是 一 个 真正 的 Python 模块 ) 。 


12. 该 函数 可 以 通过 spam.bacon() 调用 。 

13. 将 可 能 导致 错误 的 代码 行 放 在 一 个 try 子 句 中 。 

14. 可 能 导致 错误 的 代码 放 在 try 子 句 中 。 发 生 错误 时 要 执行 的 代 
码 放 在 except 子 句 中 。 
4 章 


1. 空 的 列表 值 ， 它 是 一 个 列表 ， 不 包含 任何 列表 项 。 这 类 似 于 "是 
空 的 字符 串 值 。 


2. spam[2] = 'hello'〈 注 意 ， 列 表 中 的 第 3 个 值 下 标 是 2， 因 为 第 1 个 
值 下 标 是 0。) 


3. 'd' (注意 '3'* 2 是 字符 串 '33'， 它 被 传 入 int0， 然 后 再 除 以 11。 这 
最 终 求 值 为 3。 在 使 用 值 的 地 方 ， 都 可 以 使 用 表达 式 ) 。 


4. 'd 《负数 下 标 从 末尾 倒数 ) 。 
5. ['a', 'b'] 


ni 





6. 1 
7. [3.14, 'cat', 11, 'cat', True, 99] 
8. [3.14, 11, 'cat', True] 


z 9. 列表 连接 的 操作 符 是 +， 复 制 的 操作 符 是 *〈 这 和 字符 串 一 
TE 





10. append?) 只 会 将 值 添加 在 列表 末尾 ， 而 insert(O 可 以 将 值 添 加 在 
列表 的 任何 位 置 。 


11. del 语 句 和 remove() 列表 方法 是 从 列表 中 删除 值 的 两 种 方法 。 


12. 列表 和 字符 串 都 可 以 传 入 lan0， 都 有 下 标 和 切片 ， 用 于 for 循 
环 ， 连 接 或 复制 ， 并 与 和 not in 操 作 符 一 起 使 用 。 


13. 列表 是 可 以 修改 的 ， 它 们 可 以 添加 值 、 删 除 值 和 修改 值 。 元 组 
是 不 可 修改 的 ， 它 们 根本 不 能 改变 。 而 且 ， 元 组 使 用 的 是 括号 CAD ， 
而 列表 使 用 的 是 方 括号 [和 ]。 

14. (42, ) (来 尾 的 逗号 是 必须 的 ) 。 

15. 分 别 使 用 tuple() 和 ]ist() 函数 。 

16. 它们 包含 对 列表 值 的 引用 。 


17. copy.copy() 函数 将 浅 找 贝 列表 ， 而 copy.deepcopy0 ei BCR 
贝 列 表 。 也 就 是 说 ， 只 有 copy.deepcopy0 会 复制 列表 内 的 所 有 列表 。 














PDA 
1. 两 个 花 括号 : {} 
2. {'foo': 42} 
3. 保存 在 字典 中 的 项 是 无 序 的 ， 而 列表 中 的 项 是 有 序 的 。 
4. 会 得 到 KeyError 错 误 。 
5. 没有 区 别 。in 操 作 符 检 查 一 个 值 是 不 是 字典 中 的 一 个 键 。 


6. 'cat' in spam 检 查 字 — 典 中 是 不 是 有 一 个 'cat' 键 ， 而 'cat' in 
spam.values() 检查 是 否 有 一 个 值 'cat' 对 应 于 spam 中 的 某 个 键 。 























7. spam.setdefault('color', 'black’) 


8. pprint.pprint() 
第 6 章 

1. 转 义 字符 表示 字符 串 中 的 一 些 字符 ， 这 些 字符 用 别 的 方式 很 难 
在 代码 中 打出 来 。 

2. \n 是 换行 件 ，\t 是 制 表 符 

3. \ 转 义 字 符 表示 一 个 反 和 斜 杠 。 


4. Howl's 中 的 单 引 号 没有 问题 ， 因 为 你 用 了 双 引 号 来 标识 字符 串 
的 开始 和 结束 。 


5. 多 行 字符 串 让 你 在 字符 串 中 使 用 换行 行 ， 而 不 必用 \n 转 义 字 
符 。 
6. 这 些 表达 式 求 值 为 以 下 值 : 


Tah! 


e 

'Hello' 
'Hello' 

'lo world! 


7. 这 些 表达 式 求 值 为 以 下 值 : 


e 'HELLO' 
True 
e ‘hello' 


8. 这 些 表 达 式 求 值 为 以 下 值 : 











e ['Remember,', 'remember,', 'the’, 'fifth', 'of', 'November."] 
e "There-can-be-only-one.' 


分 别 用 rjust()、]ljust() 和 center() 字符 串 方 法 。 
10. lstrip() 和 rstrip() 方法 分 别 从 字符 串 的 左边 和 右边 移 除 空白 字 


1. re.compile() 函数 返回 Regex 对 象 。 

2. 使 用 原始 字符 串 是 为 了 让 反 斜 杠 不 必 转 义 。 
3. search() 方法 返回 Match 对 象 。 

4. group() 方法 返回 匹配 文本 的 字符 串 。 


5. 分 组 0 是 整个 匹配 ， 分 组 1 包含 第 一 组 括号 ， 分 组 2 包含 第 二 组 丘 





do 


6. 句号 和 括号 可 以 用 反 斜 杠 转 义 : .、\ (和 \) 。 


7. 如 果 正 则 表达 式 没有 分 组 ， 残 返回 字符 串 的 列表 。 如 果 正 则 表 
达 式 有 分 组 ， 就 返回 字符 串 的 元 组 的 列表 。 


8. | 字符 表示 匹配 两 个 组 中 的 “任何 一 个 ”。 


9. ? 字符 可 以 表示 "匹配 前 面 分 组 0 次 或 1 次 ”， 或 用 于 表示 非 贪心 匹 
配 。 


10. + 匹配 1 次 或 多 次 。*# 匹 配 0 次 或 多 次 。 
11. {3} 匹 配 前 面 分 组 的 精确 3 次 实例 。{3, 5} 匹配 3 至 5 次 实例 。 


12. 缩写 字符 分 类 \d、\Ww 和 和 \s 分 别 匹 配 一 个 数字 、 单 词 或 空 日 字 
FF o 

















13. 缩写 字符 分 类 \D、\WW 和 \s 分 别 匹配 一 个 字符 ， 它 不 是 数字 、 单 
词 或 空白 字符 。 


14. 将 re.I 或 re.IGNORECASE 作 为 第 二 个 参数 传 入 re.compile()， 让 
匹配 不 区 分 大 小 写 。 


15. 字符 .通常 四 配 任 何 字 符 ， 换 行 符 除外 。 如 果 将 re.DOTALL 作 
为 第 二 个 参数 传 入 re.compile()， 那 么 点 也 会 匹配 换行 符 。 


.执行 贪心 匹配 ，. ?执行 非 贪 心 匹 配 。 
17. [0-9a-z] 或 [a-z0-9] 
18. 'X drummers, X pipers, five rings, X hens' 


19. re. VERBOSE 参数 允许 为 传 入 re.compile0 的 字符 串 添 加 空格 
和 注释 。 


20. re.compile (r'A\d{1,3}(,{3})*8') 将 创建 这 个 正则 表达 式 ， 但 其 
他 正则 表达 式 字 符 串 可 以 生成 类 似 的 正则 表达 式 。 


21. re.compile(r'[A-Z ][a-z]*\sNakamoto') 


22. re.compile(r'(Alice|Bob|Carol)\s(eats|pets|throws)\ 
s(apples|cats|baseballs).', re IGNORECASE) 


1. 相对 路 径 是 相对 于 当前 工作 目录 。 
2. 绝对 路 径 从 根 文 件 夹 开 始 ， 诸 如 /或 C:\。 
os.getcwd() 函数 返回 当前 工作 目录 。os.chdir0 函数 改变 当前 工 











4. 文件 夹 .是 当前 文件 夹 ，.. 是 父 文件 夹 。 

5. Ci\bacon\eggs 是 目录 名 ， 而 spam.txt 是 基本 名 称 。 

6. 字符 串 r 对 应 读 模式 ，"w' 对 应 写 模式 ，'a 对 应 添加 模式 。 

7. 已 有 的 文件 用 写 模式 打开 ， 原 有 内 容 会 被 删除 并 完全 履 写 。 

8. read) 方法 将 文件 的 全 部 内 容 作 为 一 个 字符 串 返 回 。readlines() 





返回 一 个 字符 串 列 表 ， 其 中 每 个 字符 串 是 文件 内 容 中 的 一 行 。 


9. shelf 值 类 似 字 典 值 ， 它 有 键 和 值 ， 以 及 keys(0) 和 values() 方法 ， 
类 似 于 同名 的 字典 方法 。 





第 9 章 

1. shutil.copy() 函数 将 找 贝 一 个 文件 ， 而 shutil.copytree() 将 拷贝 整 
个 文件 来， 以 及 它 的 所 有 内 容 。 

2. shutil.move) 函数 用 于 重 命名 文件 ， 以 及 文件 移动 。 


3. send2trash 函 数 将 一 个 文件 或 文件 夹 移 到 回收 站 ， 而 shutil 函 数 将 
永久 地 删除 文件 和 文件 夹 。 


4. zipfile.ZipFile() 函数 等 价 于 open() 函数 ， 第 一 个 参数 是 文件 名 ， 
第 二 个 参数 是 打开 ZIP 文 件 的 模式 〈 读 、 写 或 添加 ) 。 





第 10 章 
1. assert(spam >= 10, "The spam variable is less than 10.') 


2. assert(eggs.lower() != bacon.lower(), "The eggs and bacon variables 
are the same!')BKassert(eggs.upper() != bacon.upper(), "The eggs and bacon 
variables are the same!) 


3. assert(False, "This assertion always triggers.') 


4. 为 了 能 调用 logging.debug()， 必 须 在 程序 开始 时 加 入 以 下 两 行 : 


import logging 
logging.basicConfig(level=logging.DEBUG, format=" %(asctime)s - 
%(levelname)s - %(message)s') 





5. 为 了 能 利用 logging.debug0) 将 日 志 消 息 发 送 到 文件 
programLog.txt 中 ， 必 须 在 程序 开始 时 加 入 以 下 两 行 : 


import logging 
>>> logging.basicConfig(filename='programLog.txt', level=logging.DEBUG, 
format=" %(asctime)s - %(levelname)s - %(message)s' ) 





6. DEBUG, INFO. WARNING, ERROR#ICRITICAL 
7. logging.disable (logging. CRITICAL) 


8. 可 以 禁用 日 志 消息 ， 不 必 删 除 日 志 函 数 调用 。 可 以 选择 禁用 低 
级 别 日 志 消 息 。 可 以 创建 日 志 消息 。 日 志 消息 提供 了 时 间 惟 。 


9. Step 按 扭 让 调试 器 进入 函数 调用 。Over 按 钮 将 快速 执行 函数 调 
用 ， 不 会 单 步 进入 其 中 。Onut 按 钮 将 快速 执行 余下 的 代码 ， 直 到 走出 当 
前 所 处 的 函数 。 

10. 在 点击 Go 后 ， 调 试 右 将 在 程序 末尾 或 断 扣 处 停止 。 


11， 断 点 设 在 一 行 代码 上 ， 在 程序 执 到 到 达 该 行 时 ， 它 导致 调试 器 
暂停 。 


12. 要 在 IDLE 中 设置 断 点 ， 就 在 代码 行 上 单 击 右键 ， 从 弹出 采 单 
中 选择 Set Breakpoint。 
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1. webbrowser 横 块 有 一 个 open0) 方法 ， 它 启动 web 浏 览 器 ， 打 开 指 
定 的 URL， 束 这 样 。Requests 模 块 可 以 从 网 上 下 载 文件 和 页 面 。 
BeautifulSoup 模 块 解析 HTML。 最 后 ，selenium 模 块 可 以 启动 并 控制 浏 
TEAS © 


2. requests.get() 函数 返回 一 个 Response 对 象 ， 它 有 一 个 text 属 性 ， 
包含 下 载 内 容 的 字符 串 。 





3. 如 果 下 载 有 问题 ，raise_for_status() 方法 将 抛 出 异常 ， 如 果 下 载 
成 功 ， 什 么 也 不 做 。 


4. Response 对 象 的 status_code 属 性 包含 了 HTTP 状 态 码 。 
5. 以 "wb'， 即 “ 写 二 进 制 ?模式 在 你 的 计算 机 上 打开 新 文件 后 ， 利 用 


一 个 for(i AIK ila Response & MVJiter_content() 方法 ， 将 各 段 写 入 该 
文件 。 下 面 是 例子 : 


saveFile = open('filename.html', 'wb') 
for chunk in res.iter_content(100000) : 
saveFile.write(chunk) 





6.F12 在 Chrome 中 打开 开发 者 工具 。 按 下 Ctrl-Shift-C〈 在 Windows 
和 Linux 上 ) 或 汞 -Option-C (在 OS X) ， 在 Firefox 中 打开 开发 者 工具 。 


7. 碳 键 点 击 页 面 上 的 元 素 ， 并 从 玉 单 中 选择 Inspect Element. 
8. '#main' 

9. ‘highlight’ 

10. ‘div div’ 

11. ‘button[value="favorite" ]' 

12. spam.getText() 

13. linkElem.attrs 

14. selenium 模 块 是 通过 from selenium import webdriver 导 入 的 。 
15. findelement 方法 将 第 一 个 匹配 的 元 素 返 回 ， 作 为 一 个 


WebElement 对 象 。find elements 方法 返回 所 有 匹配 的 元 素 ， 作 为 一 个 
WebElement 对 象 列表 。 





16. 


17. 


18. 


click() 和 send_keys0) 方法 分 别 模拟 鼠标 点 击 和 键盘 按键 。 
对 表单 中 的 任意 对 象 调 用 submit0) 方法 将 提交 该 表单 。 
forward(). back() 和 refresh() 等 WebDriver 对 象 方法 模拟 了 这 些 


浏览 如 按钮 。 
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1. 


2. 


3 


4. 


openpyxl.load_workbook() 函数 返回 一 个 Workbook 对 象 。 
get_sheet_names() 方法 返回 一 个 Worksheet 对 象 。 

调用 wb.get_sheet_by_name('Sheet1'")。 

调用 wb.get_active_sheet()。 

sheet['C5'].value 或 sheet.cell(row=5, column=3).value 

sheet['C5'] = 'Hello' 或 sheet.cell(row=5, column=3).value = 'Hello' 
cell.row 和 cell.column。 

它们 分 别 返 回 表 中 最 高 列 和 最 高 行 的 整数 值 。 


openpyxl.cell.column_index_from_string('M') 


. openpyxl.cell.get_column_letter(14) 
. Sheet['A1':'F1'] 
. wb.save(‘example.xlsx') 


ah 公式 的 设置 和 值 一 样 。 将 单元 格 的 value 属 性 设置 为 公式 文本 的 
SRR. 


.在 调用 load_workbook() 时 ， 传 入 True 作为 data_only 关 键 字 参 


记 住 公式 以 = 号 开始 。 


15. sheet.row_dimensions[5].height = 100 
16. sheet.column_dimensions['C'].hidden = True 
17. OpenPyXL 2.0.5 不 会 加 载 冻 结 窗 格 、 打 印 标题 、 图 像 或 图 表 。 


18. Von Bah he Sh xe a BUTE ee EAT AS. EMEA RA 
很 有 用 的 。 





19. openpyxl.charts.Reference(). openpyxl.charts.Series(),. 
openpyxl.charts. BarChart(). chartObj.append(seriesObj)#!ladd_chart(). 


第 13 章 
1. File 对 象 由 open() 返回 。 


2. 对 PdfFileReader() 用 读 二 进 制 Crb) ， 对 PdfFileWriter() 用 写 二 
进 制 Cwb') 。 


3. 调用 getPage(4) 将 返回 第 5 页 的 Page 对 象 ， 因 为 0 页 就是 第 1 页 。 
4. 在 PdfFileReader 对 象 中 ，numPages 变 量 保 存 了 页 数 的 整数 。 


5. 调用 decrypt('swordfish')。 





6. rotateClockwise() 和 rotateCounterClockwise() 方法 。 旋 转 度数 作 
为 整数 参数 传 入 。 


7. docx.Document('demo.docx') 


8. 文档 包含 多 个 段落 。 段 沙 从 一 个 新 行 开 始 ， 包 含 多 个 Run 对 象 。 
Run 对 象 是 段落 内 连续 的 字符 分 组 。 


9. 使 用 doc.paragraphs。 





10. Run 对 象 有 这 些 变量 〈 不 是 Paragraph) 。 


11. True 总 是 让 Run 对 和 象 成 为 粗 体 ，EFalse 让 它 总 是 不 是 粗 体 ， 不 论 


样式 的 粗 体 设置 是 什么 。None 让 Run 对 象 使 用 该 样式 的 粗 体 设置 。 
12. 调用 docx.Document( 函数 。 
13. doc.add_paragraph(‘Hello there!') 


14. 整数 0、1、2、3 和 4。 


第 14 章 

1. 在 Excel 中 ， 电 子 表 格 的 值 可 以 是 字符 串 以 外 的 数据 类 型 ， 单 元 
格 可 以 有 不 同 的 字体 、 大 小 或 颜色 设置 ， 单 元 格 可 以 有 不 同 的 宽度 和 高 
度 ， 相 邻 的 单元 格 可 以 合并 ， 可 以 庶 入 图 像 和 图 表 。 

2. 传 入 一 个 File 对 象 ， 通 过 调用 open() 获得 。 


3. 对 于 Reader 对 象 ，File 对 象 需 要 以 读 二 进 制 模 式 (rb') 打开 ， 对 
于 Writer 对 象 ， 需 要 以 写 二 进 制 模 式 ("wb') 打开 。 


4. writerow() Wik. 


5. delimiter 参 数 改 变 了 分 隔 一 行 中 单元 格 所 用 的 字符 串 。 
lineterminator 参 数 改变 了 分 隔行 的 字符 串 。 


6. json.loads() 


7. json.dumps() 


第 15 音 


1. 许多 日 期 和 时 间 程 序 使 用 的 一 个 参考 时 刻 。 访 时刻 是 1970 人 年 1 月 
1H, UTC. 


2. time.time() 


3. time.sleep(5) 
4. 返回 与 传 入 参数 最 近 的 整数 。 例 如 ，round (2.4) 返回 2。 


5. datetime 对 象 表示 一 个 特定 的 时 刻 。timedelta 对 象 表示 一 段 时 
间 。 


6. threadObj = threading.Thread(target=spam) 
7. threadObj.start() 


8. 确保 在 一 个 线程 中 执行 的 代码 不 会 和 男 一 个 线程 中 的 代码 读 写 
相同 的 变量 。 


9. subprocess.Popen('c:\Windows\System32\calc.exe’') 


第 16 章 
1. 分 别 是 SMTP 和 IMAP。 


2. smtplib.SMTP()、smtpObj.ehlo()、smptObj.starttls() 和 
smtpObj.login(). 


3. imapclient.IMAPClient() and imapObj.login() 


4.IMAP 关 键 字 的 字符 串 列 表 ， 例 如 'BEFORE <date>', 'FROM 
<string>' 或 'SEEN'。 


5. 将 变量 imaplib. MAXLINE 赋 值 为 一 个 大 整数 ， 例 如 10000000。 
6. pyzmail 模 块 恋 取 下 载 的 邮件 。 
7. 你 需要 Twilio 账 户 的 SID 号 、 认 证 标识 号 ， 以 及 你 的 Twilio 电 话 
号 码 。 
第 17 草 


1. RGBA 值 是 4 个 整数 的 元 组 ， 每 个 整数 的 范围 是 0 至 255。4 个 整 
数 对 应 于 颜色 的 红 、 绿 、 蓝 和 alpha 值 〈 透 明度 ) 。 


2. pk 2 Vi] FA ImageColor.getcolor ('ComflowerBlue'，'RGBA') 将 返 


[=] (100, 149, 237, 255) ， 该 颜色 的 RGBA 值 。 
3. 矩形 元 组 是 4 个 整数 的 元 组 : 分 别 是 左边 的 x 坐标 ， 顶 边 的 y 坐 


by, ‘bi BEAM Tea BE o 





4. Image.open ('zophie.png' ) 
5. imageObj.size 是 两 个 整数 的 元 组 ， 宽 度 和 高 度 。 


6. imageObj.crop((0, 50, 50, 50))。 请 注意 ， 传 入 crop0 的 是 一 个 和 矩 
形 元 组 ， 不 是 4 个 独立 的 整数 参数 。 


7. 调用 Image 对 象 的 imageObj.save (mew_filename.png') 方法 。 
8. ImageDraw 模 块 包含 在 图 像 上 绘画 的 代码 。 


9. ImageDraw 对 象 有 一 些 绘制 形状 的 方法 ， 例 如 pointO ~ line) 或 
rectangle()。 这 些 对 象 是 将 Image 对 象 传 入 ImageDraw.Draw() 函数 后 返回 
的 。 





1. 将 鼠标 移 到 屏幕 的 左上 角 ， 即 坐标 (0，0) 。 
2. pyautogui.size() 返回 2 个 整数 的 元 组 ， 表 示 屏 幕 的 宽 和 高 。 


3. pyautogui.position() 返回 2 个 整数 的 元 组 ， 表 示 鼠 标的 x 和 y 坐 
标 。 





4. moveTo() 函数 将 鼠标 移 到 屏幕 的 绝对 华 标 处 ， 而 moveRel0 K 
数 相 对 于 鼠标 的 当前 位 置 来 移动 鼠标 。 


5. pyautogui.dragTo() 和 pyautogui.dragRel()。 
6. pyautogui.typewrite('Hello world!') 


7. 要 么 同 pyautogui.typewrite() 输入 键盘 键 字 符 串 的 列表 【〈 例 
如 "eft) ， 要 么 向 pyautogui.press() 输入 单个 键盘 键 字符 串 。 


8. pyautogui.screenshot('screenshot.png’) 


9. pyautogui.PAUSE = 2 


欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn ) 是 人 民 邮 电 出 版 社 旗 下 TT 专业 图 书 旗 
舰 社区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专业 优质 出 版 资源 和 编 
得 策划 团队 ， 打 造 传统 出 版 与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 新 技术 资讯 
为 作者 和 读者 打造 交流 互动 的 平台 。 
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异步 社区 成 立 一 周年 大 型 刚 书 活动 开启 ! 

异步 社区 的 来 历 异步 社区 是 人 民 邮 电 出 版 社 旗下 
IT @ , PERSE ， 于 2015 年 8 月 上 线 运 
警 ， 异 步 社区 依托 于 人 民 妆 时 测 乒 社 203 年 的 IT 
Fl... 
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ry iWeb 峰 会 北京 站 即将 开启 , 为 HTML5 精 
! 


每 一 次 振 去 高 吁 嫩 时 行业 的 影响 ， 每 一 天 无 数 人 

SLAE . 201688! 未 到 , 8 月 27 日 ， 

HTMLS 妖 会 北京 站 ,我 在 这 里 ,等 你 末 , 为 

HTMLSNERĖ ! ... 
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Python BSR 


每 周 半价 宅 子 书 + 更 全 


m python 和 SS (第 2 
a WE 

(3) Richard Blum $3, Christine 
Bresnahan SAFRAS (作者 ) IF 
马 立 新 (S8) 





Python 游戏 闹 香 快速 上 “机 器 学 习 项 目 开 发 实战 GISRPython SEA] 像 计 算 机 科学 京 一 样 畦 
+ 与 实战 ( 第 2 版 ) 者 Python ( S215 ) 


社区 里 都 有 什么 ? 
购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
PP 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代 码 。 


另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 
可 以 免费 下 载 。 


与 作 译 者 互动 

很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问 
题 ， 可 以 阅读 不 断 更 新 的 扩 术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
A. 
灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 忆 直 接 从 人 民 
邮电 出 版 社 书 库 发 货 ， 电 子 书 提 供 多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 


用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 














时 ， 在 里 填 入 可 使 用 的 积 
分 数值 ， 即 可 扣 减 相应 金额 。 


特别 优惠 


购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购 书 
时 输入 "57AWG ”, 然后 点 击 “ 使 用 优惠 码 ”， 即 可 享受 电子 书 8 折 优 惠 〈 本 优惠 券 只 可 使 用 一 
UO) 。 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购 买方 式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 





软 技能 : 代码 之 外 的 生存 指南 
[Š] Z. FtS (John Z. Sonmez ) (作者 ) 王 小 刚 GS) S (EARR) 
C 6 9. OK 


这 是 一 本 真正 从 “人 ” ( 而 非 按 术 也 非 管理 ) 的 角度 关注 软件 开发 人 员 呈 自发 展 的 书 。 书 中 论述 的 
内 容 降 涉及 生活 习惯 ， 又 包括 尽 维 方式 ， 匡 显 技术 中 “人 ”的 因素 ， 全 面 讲解 软件 行业 从 业 人 呈 所 
AERA “ 软 技能 ”， 

本 书 聚 焦 于 软件 开发 人 员 生 活 的 方方面面 ,从 揭秘 面 江 的 流程 到 精 耕 给 作出 一 份 杀手 级 简历 ,从 创 
建 大 受 欢 迎 约 博客 到 打 秒 你 的 个 人 品 焉 ， 从 提高 号 己 工作 效 达到 与 如 何 与 “ 拖 还 症 ” 做 斗争 ,天王 
包括 如 何 投资 不 动产 ， 如 何 关注 合 己 的 健康 ， 

本 书 共 分 为 职业 简 、 自 我 营 辖 简 、 学 习 简 、 生 产 力 简 、 理 财 简 、 健 身 简 、 精 神往 等 七 简 ， 概括 了 软 





è emi 59.00 ¥46.02(7 


era visa 


电子 版 + 纸 质 版 ”着 39.00 


社区 里 还 可 以 做 什么 


提交 勘误 


T DASE TU PASE CB 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勤 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 
社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 





身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 


z ENCES ERPL peer tee eee eee 
服务 。 


会 议 活动 早 知道 
您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 
加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 : 


[m] 





异步 社区 








QQ: 368449889 


社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 


官方 微 博 : @ 人 邮 异 步 社 区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


Phin & ZF: contact@epubit.com.cn 


使 用 Python 高 效 拒 取 页 面 数据 的 艺术 
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Learning Scrapy 
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2.1.1 URL 
2.1.2 HTML CE 











31d MacOS 
3.1.2 Windows 
= 1. 3 Linux 7 





















22. 2. 4 4 HTTP 存 和 离线 i 























版 权 信息 


PZ: 精通 Python 疏 虫 框架 Scrapy 


ISBN: 978-7-115-47420-9 





本 书 由 人 民 邮 电 出 版 社 发 行 数 字 版 。 版 权 所 有 ， 侵 权 必 究 





您 购买 的 人 民 邮 电 出 版 社 电 子 书 仅 供 您 个 人 使 用 ， 未 经 授权 ， 不 得 
以 任何 方式 复制 和 传播 本 书 内 容 。 








我 们 愿意 相信 读者 具有 这 样 的 良知 和 觉悟 ， 与 我 们 共同 保护 知识 产 
权 。 











如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 对 该 用 户 实 施 包括 但 不 限于 关闭 
该 帐号 等 维权 措施 ， 并 可 能 退 完 法 律 责 任 。 
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人 民 邮 电 出 版 社 出 版 发 行 ”北京 市 丰台 区 成 寿 竺 路 11 号 


邮编 100164 ”电子 邮件 315@ptpress.com.cn 
网 址 ”http://www.ptpress.com.cn 
。 读者 服务 热线 : (010)81055410 


反 盗 版 热线 : (010)81055315 


版 权 声 明 


Copyright © Packt Publishing 2016. First published in the English 


language under the title Learning Scrapy. 
All Rights Reserved. 


本 书 由 英国 Packt Publishing 公 司 授权 人 民 邮 电 出 版 社 出 版 。 未 经 出 
版 者 书面 许可 ， 对 本 书 的 任何 部 分 不 得 以 任何 方式 或 任何 手段 复制 和 传 
播 。 





版 权 所 有 ， 侵 权 必 完 。 


内 容 所 要 


Scrapy 是 使 用 Python 开发 的 一 个 快速 、 高 层次 的 屏幕 抓 取 和 Web 抓 
取 框 架 ， 用 于 抓 Web 站 点 并 从 页 面 中 提取 结构 化 的 数据 。 本 书 以 Scrapy 
1.0 版 本 为 基础 ， 讲 解 了 Scrapy 的 基础 知识 ， 以 及 如 何 使 用 Python 和 三 方 
API 提 取 、 整 理 数据 ， 以 满足 自己 的 需求 。 


本 书 共 11 章 ， 其 内 容 涵盖 了 Scrapy 基 础 知识 ， 理 解 HIML 和 XPath， 
安装 Scrapy 并 疏 取 一 个 网 站 ， 使 用 怜 虫 填充 数据 库 并 输出 到 移动 应 用 
中 ， 疏 虫 的 强大 功能 ， 将 疏 虫 部 署 到 Scrapinghub 云 服务 右 ，Scrapy 的 配 
置 与 管理 ，Scrapy 编 程 ， 管 道 秘诀 ， 理 解 Scrapy 性 能 ， 使 用 Scrapyd 与 实 
时 分 析 进 行 分 布 式 爬 取 。 本 书 附录 还 提供 了 各 种 必 备 软件 的 安装 与 故障 
排除 等 内 容 。 


本 书 适 合 软件 开发 人 员 、 数 据 科 学 家 ， 以 及 对 自然 语言 处 理 和 机 器 
学 习 感 兴趣 的 人 阅读 。 





RTE 


Dimitrios Kouzis-Loukas 作为 一 位 顶级 的 软件 开发 人 员 ， 已 经 拥有 
超过 15 年 的 经 验 。 同 时 ， 他 还 使 用 自己 掌握 的 知识 和 技能 ， 同 广大 读者 
讲授 如 何 编写 优秀 的 软件 。 


他 学 习 并 掌握 了 多 门 和 学 科 ， 包 括 数学 、 物 理学 以 及 微 电 子 学 。 他 对 
这 些 学 科 的 透彻 理解 ， 提 高 了 上 自 号 的 标准 ， 而 不 只 是 “实用 的 解决 方 
案 ”。 他 知道 真正 的 解决 方案 应 当 是 像 物 理学 规律 一 样 确 定 ， 像 ECC 内 
存 一 样 健壮 ， 像 数学 一 样 通用 。 








Dimitrios 目 前 正在 使 用 最 新 的 数据 中 心 技术 开发 低 延 迟 、 高 可 用 的 
分 布 式 系统 。 他 是 语言 无 关 论 者 ， 不 过 对 Python、C++ 和 Java 略 有 偏 
好 。 他 对 开源 软 便 件 有 着 坚定 的 信念 ， 他 和 希望 他 的 贡献 能 够 造福 于 各 个 
社区 和 全 人 类 。 





关于 审 稿 人 


Lazar Telebak 是 一 位 自由 的 Web 开 发 人 员 ， 专 注 于 使 用 Python 库 / 
框架 进行 网 络 爬 取 和 对 网 页 进行 索引 。 





他 主要 从 事 于 处 理 自动 化 和 网 站 扑 取 以 及 导出 数据 到 不 同 格式 ( 包 
括 CSV、JSON、XML 和 TXT) 和 数据 库 〈 如 MongoDB、SQLAlchemy 
和 Postgres) 的 项 目 。 





他 还 拥有 前 端 技 术 和 语言 的 经 验 ， 包 括 HTML、CSS、JS 和 
jQuery- 


Z 
zl 


让 我 来 做 一 个 大 胆 的 猜测 。 下 面 的 两 个 故事 之 一 会 和 你 的 经 历 有 些 
相似 。 


你 与 Scrapy 的 第 一 次 相遇 是 在 网 上 搜索 类 似 “Web scraping 
Python” 的 内 容 时 。 你 快速 对 其 进行 了 浏览 ， 然 后 想 * 这 太 复 杂 了 吧 .…… 
我 只 需要 一 些 人 简单 的 东西 。” 接 下 来 ， 你 使 用 Requests 库 开发 了 一 个 
Python 脚本 ， 并 且 挣 扎 于 Beautiful Soup 中 ， 但 最 终 还 是 完成 了 很 酷 的 工 
作 。 它 有 些 慢 ， 所 以 你 让 它 整 夜 运 行 。 你 重新 局 动 了 几 次 ， 忽 略 了 一 些 
不 完整 的 链接 和 非 瑞 文字 符 ， 到 早上 的 时 候 ， 大 部 分 网 站 已 经 “骄傲 
地 ”存在 你 的 硬盘 中 了 。 然 而 难过 的 是 ， 不 知 什么 原因 ， 你 不 想 再 看 到 
自己 写 的 代码 。 当 你 下 一 次 再 想 抓 取 某 些 东西 时 ， 则 会 直接 前 往 
scrapy.org， 而 这 一 次 文档 给 了 你 很 好 的 印象 。 现 在 你 可 以 感受 到 Scrapy 
能 够 以 优雅 且 轻 松 的 方式 解决 了 你 面临 的 所 有 问题 ， 甚 至 还 考虑 到 了 你 
没有 想到 的 问题 。 你 不 会 再 回头 了 。 

















另 一 种 情况 是 ， 你 与 Scrapy 的 第 一 次 相遇 是 在 进行 网 络 爬 取 项 目的 
研究 时 。 你 需要 的 是 健壮 、 快 速 的 企业 级 应 用 ， 而 大 部 分 花哨 的 一 键 式 
网 络 爬 取 工 具 无 法 满足 需求 。 你 布 望 它 简单 ， 但 义 有 足够 的 灵活 性 ， 能 
够 让 你 为 不 同 源 定制 不 同 的 行为 ， 提 供 不 同 的 输出 类 型 ， 并 且 能 够 以 目 
动 化 的 形式 保证 24/7 可 靠 运行 。 提 供 谎 取 服 务 的 公司 似乎 太 贵 了 ， 你 筑 
得 使 用 开源 解决 方案 比 固定 供应 商 更 加 舒服 。 从 一 开始 ，Scrapy 融 像 一 
个 确定 的 顾家 。 











无 论 你 是 出 于 何 种 目的 选择 了 本 书 ， 我 都 很 高 兴 能 够 在 这 本 专注 于 
Scrapy 的 图 书 中 遇 到 你 。Scrapy 是 全 世界 爬虫 专家 的 秘密 。 他 们 知道 如 
何 使 用 它 以 节省 工作 时 间 ， 提 供出 色 的 性 能 ， 并 且 使 他 们 的 主机 费用 达 
到 最 低 限度 。 如 有 果 你 没有 太 多 经 验 ， 但 是 还 想 实 现 同样 的 结果 ， 那 么 很 
不 幸 的 是 ，Google 并 没有 能 够 帮 到 你 。 网 络 上 大 多 数 Scrapy 信 息 要 么 太 
简单 低 效 ， 要 么 太 复 杂 。 对 于 那些 想 要 了 解 如何 充 分 利用 Scrapy 找 到 准 
确 、 易 理解 且 组 织 恨 好 的 信息 的 人 们 来 说 ， 本 书 是 非常 有 必要 的 。 我 希 
望 本 书 能 够 帮助 Scrapy 社 区 进一步 发 展 ， 并 使 其 得 以 广泛 应 用 。 





本 书 内 容 


第 1 章 ，Scrapy 简 介 ， 介 绍 本 书 和 Scrapy， 可 以 让 你 对 该 框架 及 本 
书 剩余 部 分 有 一 个 明确 的 期 望 。 


第 2 章 ， 理 解 HIML 和 XPath ， 则 在 使 疏 虫 初学 者 能 够 快速 了 解 
Web 相 关 技 术 以 及 我 们 后 续 将 会 使 用 的 技巧 。 


BIR, MAA, ， 介 绍 了 如 何 安 装 Scrapy， 并 扑 取 一 个 网 站 。 我 
们 通过 向 你 展示 每 一 个 行动 背后 的 方法 和 思路 ， 逐 步 开 发 该 示例 。 学 习 
完 本 章 之 后 ， 你 将 能 够 肘 取 大 部 分 简单 的 网 站 。 

第 4 蔓 ， 从 Scrapy 到 移动 应 用 ， 展 示 了 如 何 使 用 我 们 的 爬虫 填充 数 
据 库 并 输出 给 移动 应 用 。 本 章 过 后 ， 你 将 清晰 地 认识 到 疏 虫 在 市 场 方面 
所 带 来 的 好 处 。 


第 5 章 ， 迅 速 的 爬虫 技巧 ， 展 示 了 更 强大 的 爬虫 功能 ， 包 括 登 录 、 
更 快速 地 抓 取 、 消 费 API 以 及 礁 取 UREL 列 表 。 


第 6 章 ， 部 署 到 Scrapinghub ， 展 示 了 如 何 将 爬虫 部 署 到 
Scrapinghub 的 云 服 务 嚣 中， 并 享受 其 带 来 的 可 用 性 、 易 部 昔 以 及 可 控 性 


等 特性 。 


第 7 章 ， 配 置 与 管理 ， 以 组 织 良好 的 表现 形式 介绍 了 大 量 的 Scrapy 
功能 ， 这 些 功 能 可 以 通过 Scrapy 配 置 局 用 或 调整 。 








第 8 章 ，Scrapy 编 程 ， 通 过 展示 如 何 使 用 底层 的 Twisted 引 擎 和 
Scrapy 染 构 对 其 功能 的 各 个 方面 进行 扩展 ， 将 我 们 的 知识 带 入 一 个 全 新 
Rak TF 





FIR, FEWR, ， 提 供 了 许多 示例 ， 在 这 里 我 们 修改 了 Scrapy 的 
一 些 功能 ， 在 不 会 造成 性 能 退化 的 情况 下 ， 将 数据 插入 到 数据 库 〈 比 如 
MySQL、Elasticsearch 及 Redis) 、 接 口 API， 以 及 遗留 应 用 中 。 


第 10 章 ， 理 解 Scrapy 性 能 ， 将 帮助 我 们 理解 Scrapy 的 时 间 是 如 何 花 
费 的 ， 以 及 我 们 需要 怎么 做 来 提升 其 性 能 





第 11 章 ， 使 用 Scrapyd 与 实时 分 析 进 行 分 布 式 擒 取 ， 这 是 本 书 最 后 
一 革 ， 展 示 了 如 何在 多 台 服 务 器 中 使 用 Scrapyd 实 现 横 回 扩 展 ， 以 及 如 
何 将 爬 取得 到 的 数据 提供 给 Apache Spark 服 务 器 以 执行 数据 流 分 析 。 





阅读 本 书 的 前 所 


为 了 使 本 书 代 码 和 内 容 的 受众 尽 可 能 广泛 ， 我 们 付出 了 大 量 的 努 
力 。 我 们 希望 提供 涉及 多 服务 器 和 数据 库 的 有 趣 示 例 ， 不 过 我 们 并 不 硕 
望 你 必须 完全 了 解 如 何 创建 它们 。 我 们 使 用 了 一 个 称 为 Vagrant 的 伟大 





技术 ， 用 于 在 你 的 计算 机 中 上 自动 下 载 和 创建 一 次 性 的 多 服务 器 环境 。 我 
们 的 Vagrant 配 置 在 Mac OS X 和 Windows 上 时 使 用 了 虚拟 机 ， 而 在 Linux 
上 则 是 原生 运行 。 


对 于 Windows 和 Mac OS X， 你 需要 一 个 文 持 Intel] 或 AMD 虚 拟 化 技 
术 (VT-x 或 AMD-v) 的 64 位 计算 机 。 大 多 数 现代 计算 机 都 没有 问题 。 
对 于 大 部 分 章节 来 说 ， 你 还 需要 专门 为 虚拟 机 准备 1GB 内 存 ， 不 过 在 第 
9 章 和 第 11 章 中 则 需要 2GB 内 存 。 附 录 A 讲 解 了 安装 必要 软件 的 所 有 细 


su 


Ha 








Scrapy 本 喘 对 人 硬件 和 软件 的 需求 更 加 有 限 。 如 果 你 是 一 位 有 经 验 的 
读者 ， 并 且 不 想 使 用 Vagrant， 也 可 以 根据 第 3 章 的 内 容 在 任何 操作 系 
统 中 安装 Scrapy， 即 使 其 内 存 十 分 有 限 。 


当 你 成 功 创建 Vagrant 环 境 后 ， 无 需 网 络 连接 ， 就 可 以 运行 本 书 几 
平 全 部 示例 了 (第 4 章 和 第 6 章 的 示例 除外 ) 。 是 的 ， 你 可 以 在 航班 上 阅 
读本 书 了 。 


APRA 


ARARE REM IZ INE. Epean BOGE: 











需要 源 数 据 驱 动 应 用 的 互联 网 创业 者 ; 
者 ; 


需要 抽取 数据 进行 分 析 或 训练 模型 的 数据 科学 家 与 机 器 学 习 从 业 
想 


开发 大 规模 爬虫 基础 架构 的 软件 工程 师 ; 


JE 
要 
。 想 要 为 其 下 一 个 很 酪 的 项 目 在 树 符 派 上 运行 Scrapy 的 爱好 者 。 


就 必 备 知识 而 言 ， 阅 读本 书 只 需要 用 到 很 少 的 部 分 。 在 最 开始 的 几 
半 中 ， 本 书 为 那些 几乎 没有 疏 虫 经 验 的 读者 提供 了 网 络 技术 和 扑 虫 的 基 
础 知识 。Python 易 于 阅读 ， 对 于 有 其 他 编程 语言 基本 经 验 的 任何 读者 来 
说 ， 与 仆 忠 相关 的 半 市 中 给 出 的 大 部 分 代码 都 很 易于 理解 。 














坦率 地 说 ， 我 相信 如 果 一 个 人 在 心中 有 一 个 项 目 ， 并 且 想 使 用 
Scrapy 的 话 ， 他 就 能 够 修改 本 书 中 的 示例 代码 ， 并 在 几 个 小 时 之 内 良好 
地 运行 起 来 ， 即 使 这 个 人 之 前 没有 压 虫 、Scrapy 或 Python 经 验 。 


在 本 书 的 后 半 部 分 中 ， 我 们 将 变 得 更 加 依赖 于 Python， 此 时 初学 者 
可 能 希望 在 进一步 研究 之 前 ， 先 让 自己 用 几 个 星期 的 时 间 直 宣 Scrapy 的 
基础 经 验 。 此 时 ， 更 有 经 验 的 Python/Scrapy 开 发 者 将 学 习 使 用 Twisted 进 
行事 件 驱 动 的 Python 开 发 ， 以 及 非常 有 趣 的 Scrapy 内 部 知识 。 在 性 能 章 
节 ， 一 些 数学 知识 可 能 会 有 用 处 ， 不 过 即使 没有 ， 大 多 数 图 表 也 能 给 我 
们 清晰 的 感受 。 


第 1 半 ”Scrapy 人 简介 


欢迎 来 到 你 的 Scrapy 之 旅 。 通 过 本 书 ， 我 们 由 在 将 你 从 一 个 只 有 很 
少 经 验 甚至 没有 经 验 的 Scrapy 初 学 者 ， 打 造成 拥有 信心 使 用 这 个 强大 的 
框架 从 网 络 或 者 其 他 源 爬 取 大 数据 集 的 Scrapy 专 家 。 本 章 将 介绍 
Scrapy， 并 且 告 诉 你 一 些 可 以 用 和 它 实 现 的 很 棒 的 事情 。 


1.1 和 初 识 Scrapy 


Scrapy 是 一 个 健壮 的 网 络 框架 ， 它 可 以 从 各 种 数据 源 中 抓 取 数据 。 
作为 一 个 普通 的 网 络 用 户 ， 你 会 发 现 自己 经 常 需要 从 网 站 上 获取 数据 ， 
使 用 类 似 Excel 的 电子 表格 程序 进行 浏览 参见 第 3 章 ) ， 以 便 离线 访问 
数据 或 者 执行 计算 。 而 作为 一 个 开发 者 ， 你 需要 经 党 整合 多 个 数据 源 的 
数据 ， 但 又 十 分 清楚 获得 和 抽取 数据 的 复杂 性 。 无 论 难 易 ，Scrapy 都 可 
以 帮助 你 完成 数据 抽取 的 行动 。 








以 健壮 而 又 有 效 的 方式 抽取 大 量 数据 ，Scrapy 已 经 拥有 了 多 年 经 
验 。 使 用 Scrapy， 你 只 需 一 个 简单 的 设置 ， 就 能 完成 其 他 怜 虫 框架 中 需 
要 很 多 类 、 插 件 和 配置 项 才能 完成 的 工作 。 快 速 浏览 第 7 章 ， 你 就 能 体 
会 到 通过 简单 的 几 行 配置 ，Scrapy 可 以 实现 多 少 功能 。 


从 开发 者 的 角度 来 说 ， 你 也 会 十 分 欣赏 Scrapy 的 基于 事件 的 以 构 
(我 们 将 在 第 8 音 和 第 9 章 中 对 其 进行 深入 探讨 ) 。 它 允许 我 们 将 数据 请 
洗 、 格 式 化 、 闭 饰 以 及 将 这 些 数据 存储 到 数据 库 中 等 操作 级 联 起 来 ， 只 








要 我 们 操作 得 当 ， 人 性 能 降低 惑 会 很 小 。 在 本 书 中 ， 你 将 学 会 怎样 可 以 达 
到 这 一 目的 。 从 技术 上 讲 ， 由 于 Scrapy 是 基于 事件 的 ， 这 就 能 够 让 我 们 
在 拥有 上 千 个 打开 的 连接 时 ， 可 以 通过 平稳 的 操作 拆 分 吞吐 量 的 延迟 。 
来 看 这 样 一 个 极端 的 例子 ， 假 设 你 需要 从 一 个 拥有 汇总 页 的 网 站 中 抽取 
房 源 ， 其 中 每 个 汇总 页 包含 100 个 房 源 。Scrapy 可 以 非常 轻松 地 在 该 网 
站 中 并 行 执 行 16 个 请 求 ， 假 设 完 成 一 个 请 求 平均 需要 花费 1 秒 钟 的 时 
则 ， 你 可 以 每 秒 候 取 16 个 页 面 。 如 采 将 其 与 每 页 的 房 源 数 相 乘 ， 可 以 得 
出 每 秒 将 产生 1600 个 房 源 。 想 象 一 下 ， 如 果 每 个 房 源 都 必须 在 大 规模 并 
行 云 存 储 当 中 执行 一 次 写 入 ， 每 次 写 入 平均 需要 耗费 3 秒 钟 的 时 间 ( 非 
TARER) 。 为 了 文 持 每 秒 16 个 请 求 的 吞吐 量 ， 束 需要 我 们 并 行 运行 
1600 x 3 = 4800 次 写 入 请 求 〈 你 将 在 第 9 章 中 看 到 很 多 这 样 有 趣 的 计 

算 ) 。 对 于 一 个 传统 的 多 线程 应 用 而 言 ， 则 需要 转变 为 4800 个 线程 ， 无 
ETI, IEEE ASR UL, ABSA SSE SRN iro ME 
Scrapy 的 世界 中 ， 只 要 操作 系统 没有 问题 ，4800 个 并 发 请 求 就 能 够 处 
理 。 此 外 ，Scrapy 的 内 存 需求 和 你 需要 的 房 源 数据 量 很 接近 ， 而 对 于 多 
线程 应 用 而 言 ， 则 需要 为 每 个 线程 增加 与 房 源 大 小 相 比 十 分 明显 的 开 
销 。 


























简 而 言 之 ， 绥 慢 或 不 可 预测 的 网 站 、 数 据 库 或 远程 API 都 不 会 对 
Scrapy 的 性 能 产生 毁灭 性 的 结果 ， 因 为 你 可 以 并 行 运行 多 个 请 求 ， 并 通 
过 单一 线程 来 管理 它们 。 这 意味 着 更 低 的 主机 托管 费用 ， 与 其 他 应 用 的 
协作 机 会 ， 以 及 相 比 于 传统 多 线程 应 用 而 言 更 简单 的 代码 (无 同步 需 
He) a 








1.2 ”喜欢 Scrapy 的 更 多 理由 


Scrapy 已 经 拥有 超过 5 年 的 历史 了 ， 成 熟 而 又 稳定 。 除 了 上 一 节 中 
提 到 的 性 能 优势 外 ， 还 有 下 面 这 些 能 够 让 你 爱 上 Scrapy 的 理由 。 


。 Scrapy 能 够 识别 残缺 的 HTML 


你 可 以 在 Scrapy 中 直接 使 用 Beautiful Soup 或 lIxml， 不 过 Scrapy 还 提 
供 了 一 种 在 lxml 之 上 更 高 级 的 XPath〈 主 要) 接口 
够 更 高 效 地 处 理 残 缺 的 HTML 代 码 和 混乱 的 编码 。 





selectors 。 它 能 


。 社区 


Scrapy 拥 有 一 个 充满 活力 的 社区 。 只 需要 看 看 https://groups. 
google.com/ forum/#!forum/scrapy-users 上 的 邮件 列表 ， 以 及 Stack 
Overflow 网 站 (http:// stackoverflow.com/questions/tagged/ scrapy) 中 的 
上 千 个 问题 就 可 以 知道 了 。 大 部 分 问题 都 能 够 在 几 分 钟 内 得 到 回应 。 更 
多 社区 资源 可 以 从 http://scrapy.org/ community/ 中 获取 到 。 


。 社区 维护 的 组 织 民 好 的 代码 


Scrapy 要 求 以 一 种 标准 方式 组 织 你 的 代码 。 你 只 需 编 写 被 称 为 候 虫 
和 管道 的 少量 Python 模块 ， 并 且 还 会 目 动 从 引擎 自身 获取 到 未 来 的 任何 
改进 。 如 果 你 在 网 上 搜索 ， 可 以 发 现 有 相当 多 专业 人 士 拥有 Scrapy 经 
验 。 也 就 是 说 ， 你 可 以 很 容易 地 找到 人 来 维护 或 扩展 你 的 代码 。 无 论 是 
谁 加 入 你 的 团队 ， 都 不 需要 漫长 的 学 习 曲 线 ， 来 理解 你 的 自 定 义 爬 虫 中 
的 特别 之 处 。 














© 越 来 越 多 的 高 质量 功能 


如 果 你 快速 浏览 发 布 日 志 (http://doc.scrapy.org/en/latest/ 
news.html) ， 就 会 注意 到 无 论 是 在 功能 上 ， 还 是 在 稳定 性 bug 修复 上 ， 
Scrapy 都 在 不 断 地 成 长 。 





13 AAA: BinHe 


在 本 书 中 ， 我 们 的 目标 是 通过 重点 示例 和 真实 数据 集 教 你 使 用 
Scrapy。 大 部 分 章节 将 专注 于 候 取 一 个 示例 的 房屋 租赁 网 站 。 我 们 选择 
这 个 例子 ， 是 因为 它 能 够 代表 大 多 数 的 网 站 有 扑 取 项 目 ， 既 能 让 我 们 介绍 
感 兴趣 的 变动 ， 又 不 失 简 单 。 以 该 示例 为 主题 ， 可 以 帮助 我 们 聚焦 于 
Scrapy， 而 不 会 分 心 。 








我 们 将 从 只 运行 几 百 个 页 面 的 小 扑 虫 开始 ， 最 终 在 第 11 章 中 使 用 几 
分 钟 的 时 间 ， 将 其 扩展 为 能 够 处 理 5 万 个 页 面 的 分 布 式 人 息 虫 。 在 这 个 过 
程 中 ， 我 们 将 向 你 介绍 如 何 将 Scrapy 与 MySQL、Redis 和 Elasticsearch 等 
服务 相连 接 ， 使 用 Google 的 地 理 编码 API 找 到 我 们 示例 属性 中 的 位 置 坐 
标 ， 以 及 问 Apache Spark 提 供 数据 用 于 预测 最 影响 房价 的 关键 词 。 





你 需要 做 好 阅读 本 书 多 次 的 准备 。 你 可 能 需要 从 略 读 开始 ， 先 理解 
其 架构 。 然 后 阅读 一 到 两 章 ， 仔 细 学 习 、 实 验 一 段 时 间 ， 再 进入 后 面 的 
章节 。 如 果 你 觉得 上 自己 已 经 熟悉 了 茶 一 章 的 内 容 ， 那 么 跳 过 这 一 半 也 无 
需 担心 。 尤 其 是 如 果 你 已 经 了 解 HTML 和 XPath， 那 么 就 没有 必要 花费 
太 多 时 间 在 第 2 章 上 面 了 。 不 用 担心 ， 对 你 来 说 本 书 还 有 很 多 需要 学 习 
的 内 容 。 一 些 章节 ， 比 如 第 8 章 ， 将 参考 书 和 教程 的 元 素 结合 起 来 ， 深 
入 编程 概念 。 这 就 是 一 个 例子 ， 我 们 可 能 会 阅读 某 一 章 几 次 ， 在 这 中 间 
允许 我 们 有 几 个 星期 的 时 间 实 践 Scrapy。 你 在 继续 阅读 后 续 的 章节 ， 比 





























如 以 应 用 为 主 的 第 9 章 之 前 ， 不 需要 完美 掌握 第 8 章 中 的 内 容 。 阅 读 后 续 
的 内 容 ， 有 助 于 你 理解 如 何 使 用 编程 概念 ， 如 果 你 愿意 的 话 ， 可 以 回 过 
头 来 反复 阅读 几 次 。 





为 使 本 书 既 有 趣 ， 又 对 初学 者 友好 ， 我 们 已 经 试图 做 了 平衡 。 不 过 
我 们 不 会 做 的 一 件 事情 是 ， 在 本 书 中 教授 Python。 对 于 这 一 主题 ， 目 前 
己 经 有 了 很 多 优秀 的 书籍 ， 不 过 我 更 加 建议 的 是 以 一 种 轻松 的 心态 来 学 
习 。Python 如 此 流行 的 一 个 理由 是 因为 它 比较 人 简单、 整洁 ， 并 且 阅 读 起 
来 更 近似 于 英文 。Scrapy 是 一 个 高 级 框架 ， 无 论 是 初学 者 还 是 专家 ， 都 
需要 学 习 。 你 可 以 将 其 称 之 为 “Scrapy 语 言 "。 因 此 ， 我 会 推荐 你 通过 材 
料 来 学 习 Python， 如 果 你 发 觉 上 自己 对 于 Python 的 语法 比较 迷惑 ， 那 么 可 
以 通过 一 些 Python 的 在 线 教 程 或 Coursera 等 为 Python 初学 者 开设 的 免费 
在 线 课 程 了 予以 补充 。 请 放心 ， 即 使 你 不 是 Python 专家 ， 也 能 够 成 为 一 名 
优秀 的 Scrapy 开 发 者 。 








14 竺 握 目 动 化 数据 爬 取 的 重要 性 


对 于 大 多 数 人 来 说 ， 掌 握 一 门 像 Scrapy 这 样 很 酷 的 技术 所 带 来 的 好 
奇 心 和 精神 上 的 满足 ， 足 以 激励 我 们 。 令 人 惊喜 的 是 ， 在 学 习 这 个 优秀 
框架 的 同时 ， 我 们 还 能 享受 到 开发 过 程 始 于 数据 和 社区 ， 而 不 是 代码 所 
市 来 的 好 处 。 











1.4.1 开发 健壮 且 高 质量 的 应 用 ， 并 提供 合理 规划 


为 了 开发 现代 化 的 高 质量 应 用 ， 我 们 需要 真实 的 大 数据 集 ， 如 果 可 
能 的 话 ， 在 开始 动手 写 代 码 之 前 就 应 该 进行 这 一 步 。 现 代 化 软件 开发 就 


征 实时 处 理 大 量 不 完善 数据 ， 并 从 中 提取 出 知识 和 有 价值 的 情报 。 当 我 
们 开发 软件 并 应 用 于 大 数据 集 时 ， 一 些小 的 错误 和 玻 名 难以 家 检测 出 
来 ， 就 有 可 能 导致 昂贵 的 错误 决策 。 比 如 ， 在 做 人 口 统计 学 研究 时 ， 很 
容易 发 生 仅仅 是 由 于 州 名 过 长 导致 数据 被 默认 丢 痉 ， 造 成 整个 州 的 数据 
被 忽视 的 错误 。 在 开发 阶段 ， 甚 至 更 早 的 设计 探索 阶段 ， 通 过 细心 抓 
取 ， 并 使 用 具有 生产 质量 的 真实 世界 大 数据 集 ， 可 以 帮助 我 们 发 现 和 修 
复 错误 ， 做 出 明智 的 工程 决策 。 








另外 一 个 例子 是 ， 假 设 你 想 要 设计 Amazon 风 格 的 “如 果 你 喜欢 这 个 
商品 ， 也 可 能 喜欢 那个 商品 ?的 推荐 系统 。 如 果 你 能 够 在 开始 之 前 ， 先 
息 取 并 收集 真实 世界 的 数据 集 ， 就 会 很 快意 识 到 有 关 无 效 条 目 、 停 产 商 
品 、 重 复 、 无 效 字符 以 及 偶 态 分 布 引起 的 性 能 瓶 球 等 问题 。 这 些 数据 将 
会 强迫 你 设计 足够 健壮 的 算法 ， 无 论 是 数 千 人 购买 过 的 商品 ， 还 是 零 销 
售 量 的 新 条 目 ， 都 能 够 很 好 地 处 理 。 而 扳 立 的 软件 开发 ， 可 能 会 在 几 个 
星期 的 开发 之 后 ， 也 要 面 对 这 些 丑 陋 的 真实 世界 数据 。 虽 然 这 两 种 方法 
最 终 可 能 会 收敛 ， 但 是 为 你 提供 进度 预 估 承 话 的 能 力 以 及 软件 的 质量 ， 
都 将 随 着 项 目 进展 而 产生 显著 差别 。 从 数据 开始 ， 能 够 带 给 我 们 更 加 恰 
悦 并 且 可 预测 的 软件 开发 体验 。 




















1.4.2 ”快速 开发 高 质量 最 小 可 行 产 品 





对 于 初创 公司 而 言 ， 大 规模 真实 数据 的 集 甚 至 更 加 必要 。 你 可 能 上 听 
说 过 “精益 创业 ”， 这 是 由 Eric Ries 创造 的 一 个 术语 ， 用 于 描述 类 似 技术 
初创 公司 这 样 极 端 不 确定 条 件 下 的 业务 发 展 过 程 。 访 框架 的 一 个 关键 概 
念 是 最 小 可 行 产品 (Minimum Viable Product, MVP ) ， 这 种 产品 只 
有 有 限 的 功能 ， 可 以 被 快速 开发 并 向 有 限 的 客户 及 布 ， 用 于 测试 反 啊 及 














验证 业务 假设 。 基 于 获得 的 反馈 ， 初 创 公司 可 能 会 选择 继续 更 进一步 的 
投资 ， 也 可 能 是 转向 其 他 更 有 前 景 的 方 问 。 








在 该 过 程 中 的 某 些 方面 ， 很 容易 忽视 与 数据 紧密 连接 的 问题 ， 这 正 
是 Scrapy 所 能 为 我 们 做 的 部 分 。 比 如 ， 当 邀请 潜在 的 客户 尝试 使 用 我 们 
的 手机 应 用 时 ， 作 为 开发 者 或 企业 主 ， 会 要 求 他 们 评判 这 些 功能 ， 想 象 
应 用 在 完成 时 看 起 来 应 该 如 何 。 对 于 这 些 并 非 专家 的 人 而 言 ， 这 里 需要 
的 想象 有 可 能 太 多 了 。 这 个 差距 相当 于 一 个 应 用 只 展示 了 “产品 1”、“ 产 
品 2”“ 用 户 433”， 而 另 一 个 应 用 提供 了 “三 星 UN55J6200 55 英 寸 电视 
机 ”、 用 户 “Richard S” 给 出 了 五 星 好 评 以 及 能 够 让 你 直达 产品 详情 页 面 
(尽管 事实 上 我 们 还 没有 写 这 个 页 面 ) 的 有 效 链接 等 诸多 信息 。 人 们 很 
难 客观 判断 一 个 MVP 产 品 的 功能 性 ， 除 非 使 用 了 真实 且 令 人 兴奋 的 数 
据 。 











一 些 初创 企业 将 数据 作为 事后 考虑 的 原因 之 一 古 认为 收集 这 些 数据 
需要 郧 贵 的 代价 。 的 确 ， 我 们 通 冲 需要 开发 表单 及 管理 界面 ， 并 人 花费 时 
间 录 入 数据 ， 但 我 们 也 可 以 在 编写 代码 之 前 使 用 Scrapy 扑 取 一 些 网 站 。 
在 第 4 章 中 ， 你 可 以 看 到 一 旦 拥有 了 数据 ， 开 发 一 个 简单 的 手机 应 用 会 
有 多 么 容易 。 


1.4.3 Google 不 会 使 用 表单 ， 讨 取 才 能 扩大 规模 


当 谈 及 表单 时 ， 让 我 们 来 看 下 它 是 如 何 影响 产品 增长 的 。 想 象 一 
下 ， 如 果 Google 的 创始 人 在 创建 其 引擎 的 第 一 个 版 本 时 ， 包 含 了 一 个 每 
名 网 站 管理 员 都 需要 填写 的 表单 ， 要 求 他 们 把 网 站 中 每 一 页 的 文字 都 复 
制 粘贴 过 来 。 然 后 ， 他 们 需要 接受 许可 协议 ， 人 允许 Google 处 理 、 存 储 和 
展示 他 们 的 内 容 ， 并 剔除 大 部 分 广告 利润 。 你 能 想象 解释 该 想法 并 说 服 











人 们 参与 这 一 过 程 所 需 花 费 的 时 间 和 精力 会 有 多 大 吗 ? 即 使 市 场 非常 海 
望 一 个 优秀 的 搜索 引擎 (事实 正 是 如 此 )〉 ， 这 个 引擎 也 不 会 是 Google， 

因为 它 的 增长 过 于 绥 慢 。 即 使 是 最 复杂 的 算法 ， 也 不 能 弥补 数据 的 缺 

失 。Google 使 用 网 络 爬 虫 技术 ， 在 页 面 间 跳 转 链 接 ， 填 充 其 庞 大 的 数据 
库 。 网 站 管理 员 则 不 需要 做 任何 事情 。 实 际 上 ， 反 而 还 需要 一 些 努力 才 
能 阻止 Google 索 引 你 的 页 面 。 








虽然 Google 使 用 表单 的 想法 听 起 来 有 些 殉 请， 但 是 一 个 典型 的 网 站 
需要 用 户 填 写 多 少 表单 呢 ? 登录 表单 、 新 房 源 表单 、 结 账 表 单 ， 等 等 。 
这 些 表 单 中 有 多 少 会 阻碍 应 用 增长 呢 ? 如 果 你 充分 了 解 你 的 受众 / 客 
户 ， 很 可 能 已 经 拥有 关于 他 们 通常 使 用 并 且 很 可 能 已 经 有 账号 的 其 他 网 
站 的 线索 了 了。 比如 ， 一 个 开发 者 很 可 能 拥有 Stack Overflow 和 GitHub 的 
账号 。 那 么 ， 在 获得 他 们 允许 的 情况 下 ， 你 是 否 能 够 抓 取 这 些 站 点 ， 只 
需 他 们 提供 给 你 用 户 名 ， 就 能 自动 填充 照片 、 简 介 和 一 小 部 分 近期 文章 
呢 ? 你 能 否 对 他 们 最 感 兴趣 的 一 些 文 章 进行 快速 文本 分 析 ， 并 根据 其 调 
整 网 站 的 导航 结构 ， 以 及 建议 的 产品 和 服务 呢 ? 我 希望 你 能 够 看 到 如 何 
使 用 自动 化 数据 抓 取 车 代 表单 ， 从 而 更 好 地 服务 你 的 受众 ， 增 长 网 站 规 
模 。 


1.4.4 发 现 并 融入 你 的 生态 系统 


抓 取 数据 目 然 会 让 你 发 现 并 考虑 与 你 付出 相关 的 社区 的 关系 。 当 你 
抓 取 一 个 数据 源 时 ， 很 目 然 地 融会 产生 一 些 问题 : 我 是 否 相 信和 他 们 的 数 
据 ? 我 是 否 相 信和 获取 数据 的 公司 ? 我 是 否 需 要 和 他 们 沟通 以 获得 更 正式 
的 合作 ? 我 和 他 们 是 竞争 关系 还 是 合作 关系 ? 从 其 他 源 获 得 这 些 数据 会 
花费 我 多 少 钱 ? 无 论 如 何 ， 这 些 商 业 风 险 都 是 存在 的 ， 不 过 抓 取 过 程 可 














以 帮助 我 们 尽早 意识 到 这 些 风险 ， 并 制定 出 缓解 策略 。 


你 还 会 发 现 目 己 想 知道 能 够 为 这 些 网 站 和 社区 带 来 的 回馈 是 什么 。 
如 果 你 能 够 给 他 们 带 来 免费 的 流量 ， 他 们 应 该 会 很 蝇 兴 。 胃 一 方面 ， 如 
果 你 的 应 用 不 能 给 你 的 数据 源 带 来 一 些 价 值 ， 那 么 你 们 的 关系 可 能 会 很 
短暂 ， 除 非 你 与 他 们 沟通 ， 并 找到 合作 的 方式 。 通 过 从 不 同 源 获 取 数 

据 ， 你 需要 准备 好 开发 对 现 有 生态 系统 更 友好 的 产品 ， 充 分 章 重 已 有 的 
市 场 参与 者 ， 只 有 在 值得 努力 时 才 可 以 去 破坏 当前 的 市 场 秩序 。 现 有 的 
参与 者 也 可 能 会 帮助 你 成 长 得 更 快 ， 比 如 你 有 一 个 应 用 ， 使 用 两 到 三 个 
不 同 生 态 系统 的 数据 ， 每 个 生态 系统 有 10 万 个 用 户 ， 你 的 服务 可 能 最 终 
将 这 30 万 个 用 尸 以 一 种 创造 性 的 方式 连接 起 来 ， 从 而 使 每 个 生态 系统 都 
获 蔡 。 例 如 ， 你 成 并 了 一 个 初创 公司 ， 将 摇 深 乐 与 T 恤 印花 社区 关联 起 
来 ， 你 的 公司 最 终 将 成 为 两 种 生态 系统 的 融合 ， 你 和 相应 的 社区 都 将 从 
中 获 益 并 得 以 成 长 。 





15 ”在 充满 息 虫 的 世界 里 做 一 个 好 公民 


当 开 发 疏 虫 时 ， 还 有 一 些 事情 需要 清楚 。 不 负责 任 的 网 络 爬 虫 会 令 
人 不 悦 ， 甚 至 在 茶 些 情况 下 是 违法 的 。 有 两 个 非常 重要 的 事情 是 避免 类 
似 拒绝 服务 (DoS ) 攻击 的 行为 以 及 侵犯 版 权 。 











对 于 第 一 种 情况 ， 一 个 典型 的 访问 者 可 能 每 几 秒 访问 一 个 新 的 页 
面 。 而 一 个 典型 的 网 络 谎 虫 则 可 能 每 秒 下 载 数 十 个 页 面 。 这 样 就 比 典 型 
用 户 产 生 的 流量 多 出 了 10 倍 以 上 。 这 可 能 会 使 网 站 所 有 者 非常 不 高 兴 。 
请 使 用 流量 限 速 将 你 产生 的 流量 减少 到 可 以 接受 的 普通 用 户 的 水 平 。 此 
外 ， 还 应 该 监控 啊 应 时 间 ， 如 宋 发 现 啊 应 时 间 增 加 了 ， 就 需要 降低 谎 虫 








的 强度 。 好 消息 是 Scrapy 对 于 这 些 功能 都 提供 了 开 箱 即 用 的 实现 (参见 
第 7 章 ) 。 





对 于 版 权 问题 ， 显 然 你 需要 看 一 下 你 抓 取 的 每 个 网 站 的 版 权 声明 ， 
并 确保 你 理解 其 允许 做 什么 ， 不 允许 做 什么 。 大 多 数 网 站 都 允许 你 处 理 
其 站 点 的 信息 ， 只 要 不 以 自己 的 名 义 重 新 发 布 即 可 。 在 你 的 请 求 中 ， 有 
一 个 很 好 的 User-Agent 字段 ， 它 可 以 让 网 站 管理 员 知 道 你 是 谁 ， 你 用 
他 们 的 数据 做 什么 。Scrapy 在 制造 请 求 时 ， 默 认 使 用 BOT_NAME 参数 作 
为 User-Agent 。 如 果 User-Agent 是 一 个 URL 或 者 能 够 指明 你 的 应 用 
名 称 ， 那 么 网 站 管理 员 可 以 通过 访问 你 的 站 点 ， 更 多 地 了 解 你 是 如 何 使 
用 他 们 的 数据 的 。 另 一 个 非常 重要 的 方面 是 ， 请 允许 任何 网 站 管理 员 阻 
止 你 访问 其 网 站 的 指定 区 域 。 对 于 基于 Web 标 准 的 robots .txt 文件 
(参见 http://www.google.com/robots.txt 的 文件 示例 ) ，Scrapy 提 供 了 用 
于 尊重 网 站 管理 员 设 置 的 功能 (RobotsTxtMiddleware ) 。 最 后 ， 最 
好 辐 网 站 管理 员 提 供 一 些 方法 ， 让 他 们 能 说 明 不 希望 在 你 的 爬虫 中 出 现 
的 东西 。 至 少 网 站 管理 员 必 须 能 够 很 容易 地 找到 和 你 交流 及 表达 顾虑 的 

















1.6”Scrapy 不 是 什么 


最 后 ， 很 容易 误解 Scrapy 可 以 为 你 做 什么 ， 主 要 是 因为 数据 抓 取 这 
个 术语 与 其 相关 术语 有 些 模糊 ， 很 多 术语 是 交 瞧 使 用 的 。 我 将 尝试 使 这 
些 方面 更 加 清楚 ， 以 防止 混 消 ， 为 你 节省 一 些 时 间 。 


Scrapy 不 是 Apache Nutch， 也 就 是 说 ， 它 不 是 一 个 通用 的 网 络 疏 
虫 。 如 果 Scrapy 访 问 一 个 一 无 所 知 的 网 站 ， 它 将 无 法 做 出 任何 有 意义 的 


事情 。Scrapy 是 用 于 提取 结构 化 信息 的 ， 需 要 人 工 介 入 ， 设 置 合 适 的 
XPath 或 CSS 表 达 式 。 而 Apache Nutch 则 是 获取 通用 页 面 并 从 中 提取 信 
， 比 如 关键 字 。 它 可 能 更 适合 于 一 些 应 用 ， 但 对 男 一 些 应 用 则 又 更 不 





Gh èm 
n> 


Scrapy 不 是 Apache Solr、Elasticsearch 或 Lucene， 换 句 话 说， 就 是 它 
与 搜索 引擎 无 关 。Scrapy 并 不 打算 为 你 提供 包含 Einstein” 或 其 他 单词 的 
文档 的 参考 。 你 可 以 使 用 Scrapy 抽 取 数 据 ， 然 后 将 其 插入 到 Solr 或 
Elasticsearch 当 中 ， 我 们 会 在 第 9 重 的 开始 部 分 讲解 这 一 做 法 ， 不 过 这 仅 
仪 是 使 用 Scrapy 的 一 个 方法 ， 而 不 是 散 入 在 Scrapy 内 的 功能 。 


最 后 ，Scrapy 不 是 类 似 MySQL、MongoDB 或 Redis 的 数据 库 。 它 既 
不 存储 数据 ， 也 不 索引 数据 。 它 只 用 于 抽取 数据 。 即 便 如 此 ， 你 可 能 会 
将 Scrapy 抽 取得 到 的 数据 插入 到 数据 库 当 中 ， 而 且 它 对 很 多 数据 库 也 都 
有 所 支持 ， 能 够 让 你 的 生活 更 加 轻松 。 然 而 Scrapy 终 究 不 是 一 个 数据 
库 ， 其 输出 也 可 以 很 容易 地 更 改 为 只 是 磁盘 中 的 文件 ， 甚 至 什么 都 不 输 
出 一 一 虽然 我 不 确定 这 有 什么 用 。 





1.7 本 章 小 结 


本 章 介绍 了 Scrapy， 给 出 了 它 能 够 帮 你 做 什么 的 概述 ， 并 摘 述 了 我 
们 认为 的 使 用 本 书 的 正确 方式 。 本 章 还 提供 了 几 种 自动 化 数据 抓 取 的 方 
式 ， 通 过 帮 你 快速 开发 能 够 与 现 有 生态 系统 更 好 融合 的 高 质量 应 用 而 获 
益 。 下 一 章 将 介绍 HTML 和 XPath， 这 是 两 个 非常 重要 的 Web 语 言 ， 我 
们 在 每 个 Scrapy 项 目 中 都 将 用 到 它们 。 








第 2 章 ”理解 HIML 和 XPath 





为 了 从 网 页 中 抽取 信息 ， 你 必须 对 其 结构 有 更 多 了 解 。 我 们 将 快速 
浏览 HTIML、HTML 的 树 状 表示 ， 以 及 在 网 页 上 选取 信息 的 一 种 方式 
XPath 。 


2.1 _ HTML、DOM 树 表示 以 及 XPath 


让 我 们 花费 一 些 时 间 来 了 解 从 用 户 在 浏览 器 中 输入 URL (或 者 更 常 
见 的 是 ， 在 其 单 击 链接 或 书签 时 ) 到 屏幕 上 显示 出 页 面 的 过 程 。 从 本 书 
的 视角 来 看 ， 该 过 程 包 含 4 个 步骤 ， 如 图 2.1 所 示 。 





1. 一 个 URL : example.com 


4. 在 屏幕 上 看 到 的 结果 





2 一 个 HTML 文 档 3. 浏览 器 内 部 的 树 状 表示 形式 one 


Example Domain 
m Example 在 移动 设备 浏览 器 上 





。 在 浏览 器 中 输入 URL。URL 的 第 一 部 分 (域名 ， 比 如 gumtree .com 
) 用 于 在 网 络 上 找到 合适 的 服务 器 ， 而 URL 以 及 cookie 等 其 他 数据 
则 构成 了 一 个 请 求 ， 用 于 发 送 到 那 台 服务 器 当中 。 

。 服务 端 回应 ， 向 浏览 器 发 送 一 个 HTML 页 面 。 需 要 注意 的 是 ， 服 务 





端 也 可 能 返回 其 他 格式 ， 比 如 XML 或 JSON， 不 过 目前 我 们 只 关注 
HTML. 

。 将 HIML 转 换 为 浏览 器 内 部 的 树 状 表示 形式 : 文档 对 象 模型 
(Document Object Model, DOM ) 。 

。 基于 一 些 布局 规则 泻 染 内 部 表示 ， 达 到 你 在 屏幕 上 看 到 的 视觉 效 
FR 





下 面 来 看 看 这 些 步骤 ， 以 及 它们 所 需 的 文档 表示 。 这 将 有 助 于 定位 
你 想 要 抓 取 并 编写 程序 获取 的 文本 。 


2.1.1 URL 


对 于 我 们 而 言 ，URL 分 为 两 个 主要 部 分 。 第 一 个 部 分 通过 域名 系统 
(Domain Name System ，DNS ) 帮助 我 们 在 网 络 上 定位 合适 的 服务 
器 。 比 如 ， 当 在 浏览 器 中 发 送 https:V// 
mail.google.com/mail/u/@/#inbox 时 ， 将 会 创建 一 个 对 
mail.google.com 的 DNS 请 求 ， 用 于 确定 合适 的 服务 需 耳 地址 ， 如 
173.194.71.83 。 从 本 质 上 来 看 ，https:// 
mail.google.com/mail/u/@/#inbox 被 翻译 
Ahttps://173.194.71.83/mail/ u/@/#inbox 。 


URL ARIAS HB a RS FAR SS i RE Ts RE TE Hs BE EE 
张 图 片 、 一 个 文档 ， 或 是 需要 触 友 茶 个 动作 的 东西 ， 比 如 问 服务 器 发送 
邮件 。 


2.1.2 HTML 文 档 


服务 端 读 取 URL， 理 解 我 们 的 请 求 是 什么 ， 然 后 回应 一 个 HTML 文 
档 。 该 文档 实质 上 就 是 一 个 文本 文件 ， 我 们 可 以 使 用 TextMate、 
Notepad、vVi 或 Emacs 打 开 它 。 和 大 多 数 文 本 文档 不 同 ，HTML 文 档 具 有 
由 万 维 网 联盟 指定 的 格式 。 该 规范 当然 已 经 超出 了 本 书 的 范畴 ， 不 过 还 
是 让 我 们 看 一 个 简单 的 HTML 页 面 。 当 访问 http://example.com 时 ， 
可 以 在 浏览 器 中 选择 View Page Source (HAM MIS) 以 看 到 与 其 
相关 的 HTML 文 件 。 在 不 同 的 浏览 器 中 ， 上 有 具体 的 过 程 是 不 同 的 ; 在 许多 
系统 中 ， 可 以 通过 右键 单 击 找到 该 选项 ， 并 且 大 部 分 浏览 器 在 你 按 
下 Ctrl + U 快捷 键 ( 或 Mac 系 统 中 的 Cmd + U ) 时 可 以 显示 源 代码 。 


Q 
在 一 些 页 面 中 ， 该 功能 可 能 无 法 使 用 。 此 时 ， 需 要 通过 单 击 Chrome 沫 
单 ， 然 后 选择 Tools | View Source 才 可 以 。 











下 面 是 http://example.conm 目前 的 HTML 源 代码 。 





<!doctype html> 
<html> 
<head> 
<title>Example Domain</title> 
<meta charset="utf-8" /> 
<meta http-equiv="Content-type" 
content="text/html; charset=utf-8" /> 
<meta name="viewport" content="width=device-width, 
initial-scale=1" /> 
<style type="text/css"> body { background-color: ... 
} }</style> 
<body> 
<div> 
<h1>Example Domain</h1> 
<p>This domain is established to be used for 


illustrative examples examples in documents. 

You may use this domain in examples without 

prior coordination or asking for permission.</p> 
<p><a href="http://www.iana.org/domains/example 


More information...</a></p> 
</div> 
</body> 
</html> 





我 将 这 个 HTML 文 档 进 行 了 格式 化 ， 使 其 更 具 可 读 性 ， 而 你 看 到 的 





情况 可 能 是 所 有 文本 在 同一 行 中 。 在 HTML 中 ， 空 格 和 换行 在 大 多 数 情 
况 下 是 无 关 紧 要 的 。 


尖 括 号 中 间 的 文本 (比如 <html> 或 <head> ) 被 称 为 标 
签 。<htm1> 是 起 始 标签 ， 而 </htm1> 是 结束 标签 。 这 两 种 标签 的 唯一 
区 别 是 /字符 。 这 说 明 ， 标 签 是 成 对 出 现 的 。 虽 然 一 些 网 页 对 于 结束 标 
签 的 使 用 比较 粗心 (比如 ， 为 独立 的 段落 使 用 单一 的 <p> 标签 ) ， 但 是 
浏览 器 有 很 好 的 容忍 度 ， 并 且 会 尝试 推测 结束 的 </p> 标签 应 该 在 哪 
H, 

















<p> 和 </p> 标签 中 的 所 有 东西 被 称 为 HTML CR. WYER, JOR 
能 还 包括 其 他 元 素 ， 比 如 示例 中 的 <div> 元 素 ， 或 是 包含 ca> THAN 
B—*<p> eH 


有 些 标签 会 更 加 复杂 ， 比 如 <a 


href="http://www.iana.org/domains/example ">. @A@URLHEY 
href 部 分 被 称 为 属性 。 


最 后 ， 许 多 元 素 还 包含 文本 ， 比 如 <h1> 元 系 中 的 "Example 


Domain" . 


对 于 我 们 来 说 ， 好 消息 是 这 些 标签 并 不 都 是 重要 的 。 唯 一 可 见 的 东 
西 是 body 元 素 中 的 元 素 ， 即 <body> 和 </body> 标签 之 间 的 元 
Ro <head> 部 分 对 于 指明 诸如 字符 编码 的 元 信息 来 说 非常 重要 ， 不 过 
Scrapy 能 够 处 理 大 部 分 此 类 问题 ， 所 以 很 多 情况 下 不 需要 关注 HTML 页 
面 的 这 个 部 分 。 


2.1.3” 树 表示 法 


每 个 浏览 器 部 有 其 自身 复杂 的 内 部 数据 结构 ， 和 凭借 它 来 演 染 网 页 。 
DOM 表 示 法 具有 路 平 台 、 语 言 无 关 性 等 特点 ， 并 且 被 大 多 数 浏览 右 所 
文 持 。 























想 要 在 Chrome 中 得 看 网 页 的 树 表 示 法 ， 可 以 右键 单 击 你 感 兴趣 的 
元 素 ， 然 后 选择 Inspect Element 。 如 果 该 功能 被 禁用 ， 你 仍然 可 以 通过 
单 击 Chrome 菜 单 并 选择 Tools | Developer Tools 来 访问 它 ， 如 图 2.2 所 
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图 2.2 


此 时 ， 你 可 以 看 到 一 些 看 起 来 和 HTML 表 示 非 常 相 似 但 又 不 完全 相 
同 的 东西 。 它 就 是 HIML 代 码 的 树 表示 法 。 如 果 不 管 原始 HIML 文 档 是 
如 何 使 用 空格 和 换行 符 的 话 ， 它 看 起 来 几乎 就 是 一 样 的 。 你 可 以 单 击 每 
个 元 素 ， 检 碍 或 调整 属性 等 ， 同 时 可 以 在 屏幕 上 观察 这 些 变动 有 何 影 
啊 。 比 如 ， 当 你 双击 某 个 文本 ， 修 改 它 ， 并 按 下 回 车 键 时 ， 屏 幕 上 的 文 
本 将 会 更 新 为 这 个 新 值 。 在 右 侧 的 Properties 标签 下 ， 可 以 看 到 这 个 树 
表示 法 的 属性 ， 并 且 在 底部 可 以 看 到 一 个 类 似 面 包 居 的 结构 ， 它 显示 出 
了 当前 选择 的 元 素 在 HTML 元 素 层 次 结构 中 的 确切 位 置 ， 如 图 2.3 所 示 。 



















x | Elements’ Resources Network Sources Timeline Profiles Audits Console 
> Computed Style Show inherited 


v<htal> aes z 
¥ <head> 4 styles + ® 2 


<title>Example Domain</title> > 
<meta charset="utf-8"> (Properties | 
<meta http-equiv="Content-type” content= 


“text/htal; charset=utf-8"> 









| 
<meta name="viewport” content= accessKey: "" | 
“width=device-width, initial-scale=1"> align: "" | 
> <style type="text/css"> </style> > attributes: NamedNodeMap 
</head> baseURI: “http: //example. iana.org/" | 
v childElementCount: 3 } 
(<div> | > childNodes: NodeList[7] 
ample Domain</hl> > children: HTMLCollection[3]} 
> <p>_</p> » classList: DOMTokenList 
¥ <p> className: "" | 
<a href="http://www. iana.org/domains/ clientHeight: 200 
example">More information...</a> clientLeft: 0 
</p> clientTop: 0 
</div> clientWidth: 657 
</body> contentEditable: “inherit” 
</html> » dataset: DOMStringMap 
gir; = 
© 并 









图 2.3 





需要 注意 的 一 个 重要 事情 是 ，HTML 只 是 文本 ， 而 树 表示 法 是 浏览 
器 内 存 里 的 对 象 ， 你 可 以 通过 编程 的 方式 得 看 并 操纵 它 ， 比 如 在 
Chrome 中 使 用 Developer Tools 。 


2.1.4 你 会 在 屏幕 上 看 到 什么 


HTML 文本 表示 和 树 表 示 并 不 包含 任何 像 我们 通常 在 屏幕 上 看 到 的 
那 种 漂亮 视图 。 这 实际 上 是 HTML 成 功 的 原因 之 一 。 它 应 该 是 一 个 由 人 
类 阅读 的 文档 ， 并 且 可 以 指定 页 面 中 的 内 容 ， 而 不 是 用 于 在 屏幕 中 演 染 
的 方式 。 这 意味 着 选择 HITML 文 档 并 使 其 更 加 好 看 是 浏览 器 的 责任 ， 不 
管 它 是 诸如 Chrome 的 全 功能 浏览 器 、 移 动 设备 浏览 器 ， 甚 至 是 诸如 
Lynx 的 纯 文 本 浏览 露 














也 就 是 说 ， 网 络 的 发 展 促使 Web 开 发 者 和 用 户 对 网 页 演 染 的 控制 产 


生 了 巨大 需求 。CSS 的 创建 束 是 为 了 对 HTML 元 素 如 何 泻 染 给 予 提示 。 
不 过 ， 对 于 抓 取 而 言 ， 我 们 并 不 需要 任何 和 CSS 相 关 的 东西 。 


那么 ， 树 表示 法 是 如 何 映射 到 我 们 在 屏幕 上 所 看 到 的 东西 呢 ? 答案 
就 是 框 模型 。 正 如 DOM 树 元 素 可 以 包含 其 他 元 素 或 文本 一 样 ， 默 认 情 
况 下 ， 当 在 屏 间 上 泻 染 时 ， 每 个 元 素 的 框 表 示 同 样 也 都 包含 其 藤 入 元 素 
的 框 表示 。 an 我 们 在 屏幕 上 所 看 到 的 是 原始 HTML 文 档 
的 二 维 表示 式 作为 该 表示 的 一 部 分 。 比 
如 ， 在 图 2.4 中 ， De 
素 <h1> 和 <p> ) 是 如 何在 浏览 器 和 DOM 中 呈现 的 。 
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2.2 ”使 用 XPath 选择 HTML 元 素 


如 条 你 具有 传统 软件 工程 背景 ， 并 且 不 了 解 XPath 相关 知识 的 话 ， 
可 能 会 担心 为 了 访问 HIML 文 档 中 的 信息 ， 你 将 需要 做 很 多 字符 串 匹 
配 、 在 文档 中 搜索 标签 、 处 理 特殊 情况 等 工作 ， 或 是 需要 设法 解析 整个 





树 表示 法 以 获取 你 想 抽取 的 东西 。 有 一 个 好 消息 是 这 些 工 作 都 不 是 必需 
的 。 你 可 以 通过 一 种 称 为 XPath 的 语言 选择 并 抽取 元 素 、 属 性 和 文本 ， 
这 种 语言 正 是 专门 为 此 而 设计 的 。 


为 了 在 Google Chrome 浏 览 器 中 使 用 XPath， 需 要 单 击 Developer 
Tools 的 Console 标签 ， 并 使 用 $x 工具 函数 。 比 如 ， 你 可 以 党 试 
在 http://example. com/ 上 使 用 $x('//h1')。 它 将 会 把 浏览 器 移动 
到 <h1> 元 素 上 ， 如 图 2.5 所 示 。 
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x Elements Resourc 


> $x('//h1") 
[<h1>Example 









pOmain</h1>] 
> 


© >= Q © <topframe>v <page context> v Œ | Errors Warnings Logs Debug Ee] 
Eee M‘ a i. 


图 2.5 


你 在 Chrome 的 Console 标签 中 将 会 看 到 返回 的 是 一 个 包含 选 定 元 素 
的 JavaScript 数 组 。 如 果 将 鼠标 指针 移动 到 这 些 属性 上 ， 被 选取 的 元 素 将 
会 在 屏幕 上 高 亮 显示 ， 这 样 就 会 十 分 方便 。 


2.2.1 有 用 的 XPath 表达 式 


文档 的 层次 结构 始 于 <htm1> 元 素 ， 可 以 使 用 元 素 名 和 和 斜 线 来 选择 
文档 中 的 元 素 。 比 如 ， 下 面 是 几 种 表达 式 从 http://example.com 页 面 











返回 的 结果 。 


/htm1" ) 

<html>...</html> | 
/htm1/body' ) 
<body>...</body> | 
"/htm1/body/div' ) 
<div>...</div> | 
/htm1/body/div/h1' ) 
<h1>Example Domain</h1> ] 
"/htm1l/body/div/p' ) 
<p>...</p>, <p>...</p> ] 
/htm1/body/div/p[1]') 
<p>...</p> ] 
"/htm1/body/div/p[2]') 
<p>...</p> ] 





需要 注意 的 是 ， 因 为 在 这 个 特定 页 面 中 ，<div> 下 包含 两 个 <p> 元 
素 ， 因 此 html/body/div/p 会 返回 两 个 元 素 。 可 以 使 用 p[1] 和 p[2] 
分 别 访问 第 一 个 和 第 二 个 元 素 。 








另外 还 需要 注意 的 是 ， 从 抓 取 的 角度 来 说 ， 文 档 标 题 可 能 是 head 
部 分 中 我 们 唯一 感 兴趣 的 元 系 ， 该 元 素 可 以 通过 下 面 的 表达 式 进 行 访 
问 。 





$x('//html/head/title') 
[ <title>Example Domain</title> ] 








对 于 大 型 文档 ， 可 能 需要 编写 一 个 非 第 大 的 XPath 表 达 式 以 访问 指 
定 元 素 。 为 了 避免 这 一 问题 ， 可 以 使 用 // 语法 ， 它 可 以 让 你 取得 茶 一 











寺 定 类 型 的 元 素 ， 而 无 需 考虑 其 所 在 的 层次 结构 。 比 如 ，//p 将 会 选择 
所 有 的 p 元 素 ， 而 //a 则 会 选择 所 有 的 链接 。 





$x('//p') 
[ <p>...</p>, <p>...</p> ] 
$x('//a') 


[ <a href="http://www.iana.org/domains/example 


" >More 
information...</a> | 








同样 ，//a 语法 也 可 以 在 层次 结构 中 的 任何 地 方 使 用 。 比 如 ， 要 想 
找到 div 元 素 下 的 所 有 链接 ， 可 以 使 用 //div//a 。 需 要 注意 的 是 ， 只 
使 用 单 斜 线 的 //divyVa 将 会 得 到 一 个 空 数组 ， 这 是 因为 在 example.com 
中 ，'div' 元 素 的 直接 下 级 中 并 没有 任何 'a' 元 素 : 














$x('//div//a') 


[ <a href="http://www.iana.org/domains/example 


">More 


information...</a> ] 
$x('//div/a' ) 
[ ] 





还 可 以 选择 属性 。http://example.com/ 中 的 唯一 属性 是 链接 中 的 
href ， 可 以 使 用 符号 @ 来 访问 该 属性 ， 如 下 面 的 代码 所 示 。 


$x('//a/@href' ) 


[ href="http://www.iana.org/domains/example 











实际 上 ， 在 Chrome 的 最 新 版 本 中 ，@href 不 再 返回 URL， 而 是 返回 一 
个 空 字符 串 。 不 过 不 用 担心 ， 你 的 XPath 表 达 式 仍然 是 正确 的 。 


























还 可 以 通过 使 用 text() 函数 ， 只 选取 文本 。 


$x('//a/text()') 


[ "More information..." ] 





可 以 使 用 * 符 号 来 选择 指定 层级 的 所 有 元 素 。 比 如 : 





$x('//div/*') 
[ <hl>Example Domain</h1>, <p>...</p>, <p>...</p> ] 


pT 


你 将 会 发 现 选 择 包 含 指 定 属性 〈 比 如 @class ) 或 是 属性 为 特定 值 
的 元 素 非 常 有 用 。 可 以 使 用 更 高 级 的 谓词 来 选取 元 素 ， 而 不 再 是 前 面 例 
子 中 使 用 过 的 p[1] 和 p[2] 。 比 如 ，//a[@href] 可 以 用 来 选择 包 
含 href 属性 的 链接 ， 
而 //a[@href="http://www.iana.org/domains/example "] 则 是 选 
择 href 属性 为 特定 值 的 链接 。 





更 加 有 用 的 是 ， 它 还 拥有 找到 href 属性 中 以 一 个 特定 子 字符 串 起 
始 或 包含 的 能 力 。 下 面 是 几 个 例子 。 





$x('//a[@href]') 


[ <a href="http://www.iana.org/domains/example 


">More information...</a> ] 
$x('//a[@href="http://www.iana.org/domains/example 


] ) 


[ <a href="http://www.iana.org/domains/example 


">More information...</a> ] 
$x('//a[contains(@href, "iana")]') 
[ <a href="http://www.iana.org/domains/example 


">More information...</a> ] 


$x('//a[starts-with(@href, "http://www.")]') 
[ <a href="http://www.iana.org/domains/example 


">More information...</a>] 
$x('//a[not(contains(@href, "abc"))]') 
[ <a href="http://www.iana.org/domains/example 


">More information...</a>] 





XPath 有 很 多 像 not() . contains() 和 starts-with() 这 样 的 函 
数 ， 你 可 以 在 在 线 文 档 ( 
en eee ea Wu aA ) 中 找到 它 
们 ， 不 过 即使 不 使 用 这 些 函 数 ， 你 也 可 以 走 得 很 远 。 








现在 ， 我 还 要 再 多 说 一 点 ， 大 家 可 以 在 Scrapy 命 令 行 中 使 用 同样 的 
XPath 表达 式 。 要 打开 一 个 页 面 并 访问 Scrapy 命 令 行 ， 只 需要 输入 如 下 


scrapy shell http://example.com 








在 命令 行 中 ， 可 以 访问 很 多 在 编写 候 虫 代码 时 经 党 需要 用 到 的 变量 
《参见 下 一 章 ) 。 这 其 中 最 重要 的 耽 是 啊 应 ， 对 于 HTML 文档 来 说 就 
是 HtmlResponse 类 ， 该 类 可 以 让 你 通过 xpath() 方法 模拟 Chrome 中 的 

$x 。 下 面 是 一 些 示例 。 








response.xpath('/html').extract() 
[u'<html><head><title>...</body></html>"] 
response.xpath('/html/body/div/h1' ).extract() 
[u'<h1>Example Domain</h1>' ] 
response. xpath('/html/body/div/p').extract() 
[u'<p>This domain ... permission.</p>', u'<p><a href="http://www. 
iana.org/domains/example 


">More information...</a></p>' ] 
response.xpath('//html/head/title' ).extract() 
[u'<title>Example Domain<x/title>' ] 
response.xpath('//a').extract() 
[u'<a href="http://www. iana.org/domains/example 


">More 

information...</a>'] 

response. xpath('//a/@href').extract() 
[u'http://www.iana.org/domains/example 


'] 

response.xpath('//a/text()').extract() 
[u'More information...‘ ] 

response.xpath('//a[starts-with(@href, "http://www.")]').extract() 
[u'<a href="http://www. iana.org/domains/example 


">More 


information...</a>'] 





这 就 意味 着 ， 你 可 以 使 用 Chrome 开 发 XPath 表达 式 ， 然 后 在 Scrapy 
和 念 虫 中 使 用 它们 ， 正 如 我 们 在 下 一 节 中 将 要 看 到 的 那样 。 


2.2.2 ”使 用 Chrome 获 取 XPath 表 达 式 


Chrome 通 过 同 我 们 提供 一 些 基 本 的 XPath 表 达 式 ， 从 而 对 开发 者 更 
加 友好 。 从 前 文 提 到 的 检查 元 素 开始 : 右键 单 击 想 要 选取 的 元 素 ， 然 后 
选择 Inspect Element 。 访 操作 将 会 打开 Developer Tools ， 并 且 在 树 表 
示 法 中 融 党 显示 这 个 HTML 元 素 。 现 在 右键 单 击 这 里 ， 在 羔 单 中 选择 
Copy XPath ， 此 时 XPath 表 达 式 将 会 被 复 制 到 剪贴 板 中 。 上 述 过 程 如 图 
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图 2.6 


你 可 以 和 之 前 一 样 ， 在 命令 行 中 测试 该 表达 式 。 





$x('/html/body/div/p[2]/a' ) 
[ <a href="http://www.iana.org/domains/example 


">More 
information...</a>] 





2.2.3 ”和 常见 任务 示例 


有 一 些 XPath 表 达 式 ， 你 将 会 经 常 遇 到 。 让 我 们 看 一 些 目前 在 维基 
百科 页 面 上 的 例子 。 igi hier 所 以 我 认为 它 
们 不 会 很 快 发 生 改变 ， 不 过 改变 终究 还 是 会 发 生 的 。 我 们 把 如 下 这 些 表 
达 式 作为 说 明 性 示例 。 


。 获取 id 为 "firstHeading" 的 hl 标签 下 span 中 的 text 。 


//h1[@id="firstHeading"]/span/text() 





e 获取 id 为 "toc "的 div 标签 内 的 无 序列 表 Cul ) 中 所 有 链接 URL 


//div[@id="toc" ]/ul//a/@href 


e 获取 class 属性 包含 "ltr" 以 及 class 属性 包含 "skin-vector" 
的 任意 元 素 内 所 有 标题 元 素 (h1 ) 中 的 文本 。 这 两 个 字符 串 可 能 
在 同一 个 class 中 ， 也 可 能 在 不 同 的 class 中 。 





//*[contains(@class,"1tr") and contains(@class,"skin-vector")]//h1//t 


ext() 





实际 上 ， 你 将 会 经 常 在 XPath 表达 式 中 使 用 到 类 。 在 这 些 情 况 下 ， 
需要 记 住 由 于 一 些 被 称 为 CSS 的 样式 元 素 ， 你 会 经 常 看 到 HTML 元 素 在 
其 class 属性 中 拥有 多 个 类 。 比 如 ， 在 一 个 导航 系统 中 ， 你 会 看 到 一 些 
div 标 签 的 class 属性 是 "Link "， 而 另 一 些 是 "1ink active"。 后 者 是 
当前 激活 的 链接 ， 因 此 会 表现 为 可 见 或 使 用 一 种 特殊 的 颜色 〈 通 过 
CSS) 高 亮 表 示 。 当 抓 取 时 ， 你 通常 会 对 包含 有 特定 类 的 元 素 感 兴趣 ， 
具体 来 说 ， 就 是 前 面 例子 中 的 "link "和 "link active"。 对 于 这 种 情 
况 ，XPath 的 contains() 函数 可 以 让 你 选择 包含 有 指定 类 的 所 有 元 
Ro 











。 选择 class 属性 值 为 "infobox "的 表格 中 第 一 张 图 片 的 URL。 


//table[@class="infobox" ]//img[1]/@src 





e 选择 class 属性 以 "reflist "开头 的 div 标签 中 所 有 链接 的 URL。 


//div[starts-with(@class,"reflist")]//a/@href 





。 选择 子 元 素 包 含 文本 "References "的 元 素 之 后 的 div 元 素 中 所 有 
链接 的 URL。 


//*[text()="References"]/../following-sibling::div//a 








请 注意 该 表达 式 非 常 脆弱 并 且 很 容易 无 法 使 用 ， 因 为 它 对 文档 结构 


做 了 过 多 假设 。 
。 获取 页 面 中 每 张 图 片 的 URL。 


//img/@src 


2.2.4 预见 变化 


抓 取 时 经 常会 指向 我 们 无 法 控制 的 服务 器 页 面 。 这 就 意味 着 如 果 它 
们 的 HTML 以 某 种 方式 发 生变 化 后 ， 就 会 使 XPath 表达 式 失效 ， 我 们 将 
不 得 不 回 到 疏 虫 当中 进行 修正 。 通 常情 况 下 ， 这 不 会 花费 很 长 时 间 ， 因 
为 这 些 变化 一 般 都 很 小 。 但 是 ， 这 仍然 是 需要 避免 发 生 的 情况 。 一 些 简 
单 的 规则 可 以 帮助 我 们 减少 表达 式 失效 的 可 能 性 。 


。 避免 使 用 数组 索引 数值 ) 


Chrome 经 常会 给 你 的 表达 式 中 包含 大 量 和 常数 ， 例 如 : 


//*[@id="myid" |/div/div/div[1]/div[2]/div/div[1]/div[1]/a/img 











ITT SAAR Fs Wes A RR REY As TE AR E 
某 个 地 方 添加 了 一 个 额外 的 div 的 话 ， 这 些 数字 最 终 将 会 指 问 不同 的 元 


素 。 本 案例 的 解决 方法 是 尽 可 能 接近 目标 的 img 标签 ， 找 到 一 个 可 以 使 
用 的 包含 id 或 者 class 属性 的 元 素 ， 如 : 


//div[@class="thumbnail" ]/a/img 





。 类 并 没有 那么 好 用 


使 用 class 属性 可 以 更 加 容易 地 精确 定位 元 素 ， 不 过 这 些 属 性 一 般 
是 用 于 通过 CSS 影 响 页 面 外 观 的 ， 因 此 可 能 会 由 于 网 站 布局 的 微小 变更 
而 产生 变化 。 例 如 下 面 的 class : 








//div[@class="thumbnail" ]/a/img 





一 段 时 间 后 ， 可 能 会 变 成 : 


//div[@class="preview green" ]/a/img 





。 有 意义 的 面向 数据 的 类 要 比 具 体 的 或 者 面向 布局 的 类 更 好 


在 前 面 的 例子 中 ， 无 论 是 "thumbnail "还 是 "green "都 是 我 们 所 依 
赖 类 名 的 坏 示 例 。 虽 然 "thumbnail " 比 "green "确实 更 好 一 些 ， 但 是 它 
们 都 不 如 "departure-time"。 前 面 两 个 类 名 是 用 于 描述 布局 的 ， 


而 "departure-time "更 加 有 意义 ， 与 div 标签 中 的 内 容 相关 。 因 此 ， 
在 布局 发 生变 化 时 ， 后 者 更 可 能 保持 有 效 。 这 可 能 也 意味 着 该 站 的 开发 
者 非常 清楚 使 用 有 意义 并 且 一 致 的 方式 标注 他 们 数据 的 好 处 。 





。 ID 通常 是 最 可 靠 的 


通常 情况 下 ，id 属性 是 针对 一 个 目标 的 最 佳 选择 ， 因 为 该 属性 既 
意义 又 与 数据 相关 。 部 分 原因 是 JavaScript 以 及 外 部 链接 锚 一 般 选 择 
id 属性 以 引用 文档 中 的 特定 部 分 。 例 如 ， 下 面 的 XPath 表达 式 非 常 健 
本 


//*[@id="more_info"]//text() 











例外 情况 是 以 编程 方式 生成 的 包含 唯一 标记 的 ID 。 这 种 情况 对 于 
抓 取 至 无 意义 。 比 如 : 


//[@id="order-F4982322" | 





尽管 使 用 了 id ， 但 上 面 的 表达 式 仍 然 是 一 个 非常 差 的 XPath 表达 
式 。 需 要 记 住 的 是 ， 尽 管 ID 应 该 是 唯一 的 ， 但 是 你 仍然 会 发 现 很 
多 HTML 文档 并 没有 满足 这 一 要 求 。 


23 本章 小 结 


由 于 标记 的 质量 不 断 提 高 ， 现 在 可 以 更 加 容易 地 创建 健壮 的 XPath 
表达 式 ， 来 抽取 HTML 文 档 中 的 数据 。 在 本 章 中 ， 你 学 习 了 HTML 文档 
和 XPath 表达 式 的 基础 知识 。 你 可 以 看 到 如 何 使 用 Google 的 Chrome 浏 览 
器 自动 获取 一 些 XPath 表 达 式 ， 并 将 其 作为 我 们 后 续 优 化 的 起 点 。 你 同 
样 还 学 到 了 如 何 通过 审查 HTML 文 要 ， 直 接 创建 这 些 表 达 式 ， 以 及 辨别 
XPath 表达 式 是 否 健壮 。 现 在 ， 我 们 准备 好 运用 已 经 学 到 的 所 有 知识 ， 
在 第 3 章 中 使 用 Scrapy 编 写 我 们 的 前 几 个 怜 虫 。 





这 和 古 非 党 重要 的 一 章 ， 你 可 能 会 多 次 阅读 本 章 ， 并 且 经 名 会 在 寻找 
解决 方案 时 回 到 本 章 中 。 我 们 首先 会 介绍 如 何 安装 Scrapy， 然 后 伴随 知 
干 示 例 及 不 同 的 实现 ， 转 向 开发 Scrapy 息 虫 的 方法 论 。 在 开始 之 前 ， 我 
们 先 来 看 一 些 重要 的 概念 。 


由 于 我 们 会 快速 进入 有 趣 的 代码 部 分 ， 因 此 使 用 本 书 中 代码 片段 的 
能 力 非常 重要 。 当 你 看 到 如 下 内 容 时 : 


$ echo hello world 


hello world 





表示 你 在 终端 输入 了 echo hello word (忽略 美元 符号 ) ， 接 下 
来 的 一 行 或 几 行 就 是 你 在 终端 上 面 看 到 的 输出 。 





Q 
我 们 将 会 混用 "终端 *、“ 控 制 台 > 和 "命令 行 * 这 几 个 术语 ， 它 们 在 本 书 的 
背景 下 没有 太 大 区 别 。 请 用 Google 搜 索 并 找 出 如 何 启 动 你 所 使 用 的 平台 


(Windows、OS X 或 其 他 ) 中 的 控制 台 。 你 也 可 以 在 附录 A 中 找到 详细 的 指 
引 。 



































当 你 看 到 如 下 内 容 时 : 


>>> print 'hi' 





表示 你 在 Python 或 Scrapy 的 shell 提 示 符 中 输入 了 print 'hi' (A 





略 >>>) 。 同 样 地 ， 接 下 来 的 一 行 或 几 行 就 是 你 在 终端 上 面 看 到 的 该 命 
令 的 输出 。 





在 本 书 中 ， 你 还 需要 编辑 文件 。 你 所 使 用 的 工具 很 大 程度 上 依赖 于 
你 的 环境 。 如 果 你 使 用 Vagrant (强烈 推荐 ) ， 可 以 使 用 电脑 或 笔记 本 


中 诸如 Notepad、Notepad++、Sublime Text、TextMate、Eclipse 或 
PyCharm 等 编辑 器 。 如 果 你 有 更 多 的 Linux 或 UNIX 使 用 经 验 ， 也 可 能 
喜欢 直接 使 用 Vim 或 Emacs 在 控制 台中 编辑 文件 。 这 两 种 编辑 器 都 很 强 
大 ， 不 过 需要 一 定 的 学 习 曲 线 。 如 果 你 是 一 个 初学 者 ， 并 且 不 得 不 在 控 
制 台 中 编辑 某 些 东西 ， 那 么 也 可 以 答 试 对 初学 者 更 加 友好 的 nano 编 辑 
Ao 





3.1 ”安装 Scrapy 


Scrapy 的 安装 相对 来 说 比较 简单 ， 不 过 它 会 完全 依赖 于 你 从 哪里 起 
步 。 为 了 能 够 文 持 尽 可 能 多 的 用 户 ， 本 书 中 运行 和 安装 Scrapy 以 及 所 有 
示例 的 “官方 "方式 是 通过 Vagrant， 该 软件 能 够 让 你 在 不 考虑 宿主 操作 系 
统 的 情况 下 ， 运 行 一 个 标准 的 Linux 系 统 ， 在 该 系统 中 我 们 已 经 安装 好 
所 有 需要 用 到 的 工具 。 我 们 将 会 在 接 下 来 的 几 小 节 中 给 出 Vagrant 的 使 
用 说 明 以 及 一 些 常用 操作 系统 中 的 指引 。 





3.1.1 MacOS 


为 了 更 加 方便 地 阅读 本 书 ， 请 按照 后 面 给 出 的 Vagrant 使 用 说 明 操 
作 。 如 采 你 想 直 接 在 MacOS 系 统 中 安装 Scrapy， 其 实 也 很 简单 。 只 需要 
输入 下 面 的 命令 即 可 。 





$ easy_install scrapy 


然后 ， 一 切 都 会 为 你 准备 好 。 在 过 程 中 ， 可 能 会 要 求 你 填写 密码 或 
安装 Xcode， 如 图 3.1 所 示 。 这 些 都 没有 问题 ， 你 可 以 放心 地 接受 这 些 请 







The "gcc" command requires the command line 
A) developer tools. Would you like to install the tools 
now? 
Choose Install to continue. Choose Cet Xcode to install Xcode 
and the command line developer tools from the App Store 
Get Xcode Not Now 
ee, 


or saweet 


Stop u 





3.1.2 Windows 


直接 在 Windows 系 统 中 安装 Scrapy 会 复杂 一 些 ， 坦 白 来 说 ， 会 有 一 
点 痛苦 。 而 且 ， 安 装 本 书 中 所 需 的 所 有 软件 也 需要 很 大 程度 的 勇气 和 诀 
心 。 我 们 已 经 为 你 做 好 了 准备 。Vagrant 和 Virtualbox 可 以 在 Windows 64 
位 平台 中 良好 运行 。 直 接 前 往 本 章 后 续 的 相关 小 节 ， 你 可 以 很 快 将 其 安 
装 好 并 运行 起 来 。 如 果 你 必须 要 在 Windows 系 统 中 直接 安装 Scrapy， 请 
查阅 本 书 网 站 (http://scrapybook.com ) 中 的 资源 。 








3.1.3 Linux 


和 前 面 提 及 的 两 个 操作 系统 一 样 ， 如 果 你 想 按 照 本 书 操 作 ， 那 么 
Vagrant 就 是 最 为 推荐 的 方式 。 











由 于 在 很 多 场景 下 ， 你 需要 在 Linux 服 务 器 中 安装 Scrapy， 因 此 更 详 
尽 的 指引 可 能 会 很 有 用 。 


Q 
FADS PRR AR PE 8 2 REAR. ANSI, BAT ACR A Scrapy he 7S 
是 1.0.3， 下 面 的 内 容 是 针对 不 同 主流 系统 的 操作 指南 。 























1. Ubuntu 或 Debian Linux 


为 了 在 Ubuntu (使 用 Ubuntu 14.04 Trust Tahr 64 位 版 本 测试 ) 或 其 
他 使 用 apt 的 发 布 版 本 中 安装 Scrapy， 需 要 执行 如 下 3 个 命令 。 








$ sudo apt-get update 


$ sudo apt-get install python-pip python-lxml python-crypto python- 


cssselect python-openss1 python-w31ib python-twisted python-dev 1ibxm12- 


dev libxslti-dev zlibig-dev libffi-dev libssl-dev 


$ sudo pip install scrapy 





上 述 过 程 需 要 一 些 编译 工作 ， 而 且 可 能 会 被 不 时 打 断 ， 不 过 它 将 会 
为 你 安装 PyPI 源 上 最 新 版 本 的 Scrapy。 如 果 你 想 避 免 某 些 编译 工作 ， 并 
且 能 够 忍受 使 用 稍微 过 时 一 些 的 版 本 的 话 ， 可 以 通过 Google 搜 索 “install 
Scrapy Ubuntu packages”， 并 跟随 Scrapy 官 方 文档 的 指引 进行 操作 。 


2. Red Hat 或 CentOS Linux 


在 Red Hat 或 其 他 使 用 yum 的 发 布 版 本 中 安装 Scrapy 相 对 来 说 比较 容 
易 。 你 只 需 按照 如 下 3 行 操作 即 可 。 





sudo yum update 


sudo yum -y install libxslt-devel pyOpenSSL python-lxml python-devel gcc 


sudo easy_install scrapy 





3.1.4 ”最 新 源码 安装 


只 要 你 按照 上 述 指引 操作 的 话 ， 融 已 经 安装 好 了 Scrapy 目 前 所 需 的 
所 有 依赖 。 由 于 Scrapy 是 纯 Python 应 用 ， 因 此 如 果 你 想 修 改 其 源 代码 或 
测试 最 新 功能 ， 可 以 很 容易 地 从 
https://github.com/scrapy/scrapy 网 站 中 克隆 其 最 新 版 本 。 在 你 
的 系统 中 安装 Scrapy， 只 需 输 入 如 下 命令 。 





$ git clone https://github.com/scrapy/scrapy.git 


$ cd scrapy 


$ python setup.py install 


我 猜 如 条 你 属于 这 类 Scrapy 用 户 ， 也 束 不 需要 我 再 提 及 


virtualenv 了 。 


3.1.5 ”升级 Scrapy 








Scrapy 经 常会 升级 。 你 会 发 现 自己 需要 在 很 短 时 间 内 完成 升级 ， 此 
时 可 以 使 用 pip 、easy_install 或 aptitude 完成 这 项 工作 。 


$ sudo pip install --upgrade Scrapy 








$ sudo easy_install --upgrade scrapy 


[L E 


如 果 想 降级 或 选择 特定 版 本 ， 可 以 通过 指定 版 本 号 来 完成 ， 比 如 : 





$ sudo pip install Scrapy==1.0.0 


$ sudo easy_install scrapy==1.0.0 





3.1.6 Vagrant: 本 书 中 运行 示例 的 官方 方式 











本 书 中 会 有 很 多 复杂 但 又 有 趣 的 例子 ， 其 中 一 些 例子 会 用 到 很 多 服 
务 。 无 论 是 处 于 初学 还 是 进 阶 阶段 ， 都 可 以 运行 本 书 中 的 这 些 示 例 ， 这 
是 因为 被 称 为 Vagrant 的 程序 可 以 让 我 们 仅仅 使 用 简单 的 命令 就 能 准备 
好 这 个 复杂 的 系统 。 本 书 中 使 用 的 系统 如 图 3.2 所 示 。 












































图 3.2 ”本 书 使 用 的 系统 


在 Vagrant 的 术语 中 ， 你 的 电脑 或 笔记 本 被 称 为 “宿主 ?机 。Vagrant 
使 用 宿主 机 运行 Docker 提 供 者 VM 〈 虚 拟 机 ) 。 这 些 技术 可 以 让 我 们 拥 
有 一 个 隔离 的 系统 ， 在 其 中 拥有 其 私有 网 络 ， 可 以 忽略 窒 主 机 的 软 便 
件 ， 运 行 本 书 中 的 示例 。 


大 部 分 章节 只 使 用 了 两 个 服务 : "dev" 机 器 和 "web" 机 器 。 我 们 登录 
到 dev 机 器 中 运行 仆 虫 ， 抓 取 web 机 器 中 的 页 面 。 后面 的 一 些 间 节 会 用 到 
更 多 的 服务 ， 包 括 数 据 库 和 大 数据 处 理 引 擎 。 


请 按照 附录 A 的 说 明 ， 在 操作 系统 中 安装 Vagrant。 到 附录 A 的 结尾 
时 ， 你 应 当 已 经 在 操作 系统 中 安装 好 git 和 Vagrant 了 。 打 开 控 制 台 / 
终端 /命令 提示 符 ， 现 在 可 以 按照 如 下 操作 获取 本 书 的 代码 了 。 


$ git clone https://github.com/scalingexcellence/scrapybook.git 


$ cd scrapybook 





然后 可 以 通过 输入 如 下 命令 打开 Vagrant 系 统 。 


$ vagrant up --no-parallel 





在 首次 运行 时 将 会 花费 一 些 时 间 ， 这 取决 于 你 的 网 络 连接 状况 。 在 
这 之 后 ，'vagrant up' 操 作 将 会 瞬间 完成 。 当 系统 运行 起 来 之 后 ， 束 可 以 
使 用 如 下 命令 登录 dev 虚 拟 机 。 


$ vagrant ssh 


现在 ， 你 已 经 处 于 开发 控制 全 当中， 在 这 里 可 以 按照 本 书 的 其 他 说 
明 操作 。 代 码 已 经 从 你 的 窒 主 机 复制 到 dev 机 器 当中 ， 可 以 在 book 目 录 
下 找到 这 些 代码 。 


ch63 ch64 ch65 ch67 ch68 ch69 ch16 chil ... 








打开 几 个 控制 台 并 执行 vagrant ssh ， 可 以 获得 多 个 可 供 操 作 的 
dev 终 端 。 可 以 使 用 vagrant halt 关闭 系统 ， 使 用 vagrant status 
查看 系统 状态 。 请 注意 ，vagrant halt 不 会 关 掉 VM。 如 果 出 现 问 
题 ， 则 需要 打开 VirtualBox 然 后 手动 关闭 它 ， 或 者 使 用 vagrant 


global-status 找到 其 id (名 为 "docker-provider") ， 然 后 使 
用 vagrant halt <ID> 停 掉 它 。 即 使 你 处 于 离线 状态 ， 大 部 分 示例 仍 
然 能 够 运行 ， 这 也 是 使 用 Vagrant 的 一 个 很 好 的 副作用 。 


现在 ， 我 们 已 经 正确 地 创建 好 了 系统 ， 下 面 就 该 准备 学 习 Scrapy 
He 


3.2 UR? IM 一 一 基本 抓 取 流 程 


每 个 网 站 都 是 不 同 的 ， 如 果 发 现 某 些 不 常见 的 情况 ， 则 需要 一 些 额 
外 的 学 习 ， 或 是 在 Scrapy 的 邮件 列表 中 咨询 一 些 问题 。 不 过 ， 为 了 知道 
在 哪里 和 如 何 搜索 ， 重 要 的 是 对 其 流程 有 一 个 整体 的 了 解 ， 并 且 清 楚 相 
关 的 术语 。 和 Scrapy 打 交道 时 ， 你 所 遵循 的 最 通用 的 流程 是 UR? IM 流 
程 ， 如 图 3.3 所 示 。 





基本 的 爬 取 流程 


URL 

请 求 (Request) 

啊 应 (Response) a = 
Item ayy? 数据 库 
更 多 的 URL (More URL) 








13.3 UR2 IM 流 程 


3.2.1 URL 


一 切 始 于 URL。 你 需要 从 准备 抓 取 的 网 站 中 选择 几 个 示例 URL。 我 


将 使 用 Gumtree 分 类 广告 网 站 〈 https://www.gumtree.com ) 作为 
示例 进行 演示 。 


比如 ， 通 过 访问 Gumtree 上 的 伦敦 房产 主页 (链接 为 
http://www.gumtree.com/flats-houses/london ) ， 你 能 够 找到 
一 些 房产 的 示例 URL。 可 以 通过 右键 单 击 分 类 列表 ， 选 择 Copy Link 
Address《〈 复 制 链接 地 址 ) 或 你 浏览 器 中 同样 的 功能 ， 来 复制 这 些 
接 。 比 如 ， 其 中 一 个 可 能 类 似 于 
https://www.gumtree.com/p/studios-bedsits-rent/split- 
level 。 虽 然 可 以 在 真实 网 站 中 使 用 这 些 URL 来 操作 ， 但 不 幸 的 是 ， 
经 过 一 段 时 间 后 ， 真 实 的 Gumtree 网 站 可 能 会 发 生变 化 ， 造 成 XPath 表达 
式 无 法 正常 工作 。 此 外 ， 除 非 设置 一 个 用 户 代理 头 ， 否 则 Gumtree 不 会 
ee 稍 后 我 们 会 对 此 进行 更 进一步 的 讲解 ， 不 过 就 现在 而 
言 ， 如 果 想 加 载 它们 的 某 个 页 面 ， 可 以 在 scrapy shell 中 使 用 如 下 命令 。 


scrapy shell -s USER_AGENT="Mozilla/5.6" <your url here e.g. http://www. 


gumtree.com/p/studios-bedsits-rent/...> 





如 果 想 要 在 使 用 scrapy shell 时 调试 问题 ， 可 以 使 用 - -pdb 参数 启用 
ZENH MERRE o Pa: 


scrapy shell --pdb https://gumtree.com 








scrapy shell 是 一 个 非常 有 用 的 工具 ， 能 够 帮助 我 们 使 用 Scrapy 开 发 。 











很 显然 ， 我 们 并 不 辟 励 你 在 学 习 本 书 内 容 时 访问 Gumtree 的 网 站 ， 

我 们 也 不 希望 本 书 的 示例 在 不 久之 后 就 无 法 使 用 。 此 外 ， 我 们 还 希望 即 
使 无 法 连接 互联 网 ， 你 仍然 能 够 开发 和 使 用 我 们 的 示例 。 这 就 是 为 什么 
你 的 Vagrant 开 发 环境 中 包含 一 个 提供 了 类 似 于 Gumtree 网 站 页 面 的 Web 
服务 器 的 原因 。 虽 然 它 们 可 能 不 如 真实 网 站 那么 漂亮 ， 但 是 从 息 虫 角度 
来 说 ， 它 们 其 实 是 一 样 的 。 即 便 如 此 ， 我 们 在 本 章 中 的 所 有 截图 还 是 来 
目 真 实 的 Gumtree 网 站 。 在 你 Vagrant 的 dev 机 器 中 ， 可 以 通过 
http://web:9312/ 访问 该 Web 服 务 器 ， 而 在 你 的 浏览 器 中 ， 可 以 通过 
http://localhost :9312/ 来 访问 。 





在 scrapy shell 中 打开 服务 器 中 的 一 个 网 页 ， 并 且 在 dev 机 器 上 输入 如 
下 内 容 进 行 操作 。 


$ scrapy shell http://web:9312/properties/property_000000.htm1 


[s] Available Scrapy objects: 


[s] 


[s] 


[s] 


[s] 


crawler 


item 


request 


response 


settings 


spider 


<scrapy.crawler.Crawler object at @x2d4fb10> 


{} 


<GET http:// web:9312/.../property_000000.htm1> 


<200 http://web:9312/.../property_9@0000.htm1> 


<scrapy.settings.Settings object at @x2d4fa9@> 


<DefaultSpider 'default' at @x3eaQ@bda@> 


[s] Useful shortcuts: 


[s]  shelp() Shell help (print this help) 


[s] fetch(req_or_url) Fetch request (or URL) and update local... 


[s] view(response) View response in a browser 


>>> 





我 们 得 到 了 一 些 输出 ， 现 在 可 以 在 Python 提示 符 下 ， 用 它 来 调试 刚 
才 加 载 的 页 面 〈 一 般 情况 下 ， 可 以 使 用 Ctrl + DRE) 。 


3.2.2 “请求 和 啊 应 


大 家 可 能 注意 到 在 前 面 的 日 志 中 ，scrapy shell 本 身 已 经 为 我 们 做 了 
一 些 工作 。 我 们 给 出 了 一 个 URL， 然 后 它 执行 了 一 个 默认 的 GET 请 求 ， 
dN icin 的 啊 应 。 这 就 意味 着 ， 页 面 信 息 已 经 加 载 完 

， 可 以 使 用 了 。 如 果 想 要 打印 response.body 的 前 50 个 字符 ， 可 以 
cae 命令 操作 。 


>>> response.body[ :56] 


"<!DOCTYPE html>\n<html>\n<head>\n<meta charset="UTF-8"' 





Q 
[:50] 是 什么 ? 这 是 Python 从 文本 变量 《本 例 为 response.body ) 中 


抽取 最 前 面 50 个 字符 《〈 如 果 存 在 ) 的 方式 。 如 果 你 之 前 并 不 了 解 Python， 请 
保持 冷静 ， 继 续 癌 前 。 很 快 ， 你 就 会 熟悉 并 享受 所 有 这 些 语法 技巧 了 。 






































这 是 Gumtree 上 指定 页 面 的 HTML 内 容 。 请 求 和 响应 部 分 不 会 给 我 





们 带 来 太 多 肤 烦 。 不 过 ， 在 很 多 情况 下 ， 你 需要 做 一 些 工作 才能 保证 其 
正确 。 第 5 章 中 讲 到 这 些 内 容 。 n. 我 们 尽量 保持 简单 ， 直 接 
进入 下 一 部 分 一 一 Item 。 








3.2.3 Item 


下 一 步 是 尝试 从 啊 应 中 将 数据 抽取 到 Item 的 字段 中 。 因 为 该 页 面 
的 格式 是 HTML， 因 此 可 以 使 用 XPath 表 达 式 进行 操作 。 首 先 ， 让 我 们 
看 一 下 这 个 页 面 ， 如 图 3.4 所 示 。 





All Categories 四 tondon +Umiles x 





<Back | United Kingdom / England / London / WestLondon / EarlsCourt / Property / Propertyto Rent / Flats&Housesfor Rent / Studio Apartments & Bedsitsto Rent 


Split level süsi aS iS Copy 


Search Google com for 'UTILITY’ tect sere 
Print... ertve an See all ads 


Inspect Element = — Reveal 












Earls Court, London 





Look Up in Dictionary 
Speech > 
Á = = = ices Search With Google Save | A Report ~ | 


Look Up in VitalSource Bookshelf 
Add to iTunes as a Spoken Track 


" itemscope itemtype="http: //schema.org/Prodi Add to Evernote 


| Elements | Network” Sources Timeline title r 
-location main" > 


vemain role="ma 
<aside cl 





Styles | Computed 


element.style 
role="complementary"></aside> } let 










v <div class@jgrid-col-12 grid-col-l . truncate-number 


v <header iss="clearfix space-mbs 








b <hl itemprop="name" clas: </hl> dey a 
<strong @lass="ad-location truncate-Line set-left" itemscope itemtype="http://schema.org/Place" itemprop="name"> position: retati 
Earls Court, London i iii aus i ine telephone padding-right: ¢ 
</strong> } 

» <span class="h1 set-right space-mvn" itemprop="offers" itemscope itemtype="http://schema.org/0ffer">.</span> .form-row-label { 
::after line-height: 40; 

</neader> 

» <div class="tabs-triggers">.</div> 
><div class="tabs-content space-mbm">..</div> +txt-large { 
> <div class="hide-fully-from=m"'>..</div> font-size: 18px; 
</div> } 
¥ <div class="grid-col-m-6 hide-fully-to-m grid-col-m-right grid-col-l-4"> .txt-emphasis { 
¥<section class="box box-peelshadow-r" itemscope itemtype="http://schema.org/Person" data-q="reply—box-2"> font-weight: 60¢ 
::before 

v <div class="box-padding"> strong { 
p<h2 class="truncate-line Space-mbxs">-</h2> 
> <p class="h-underline-s space-mbs">..</p> } Font-weight+-60( 
Y<div class="clearfix"> 

><span class="icn-phone icn-quaternary" aria-hidden="true">..</span> b, strong { 


> <strong class="truncate-number txt-large txt-emphasis form-row-label" data-toggle="channel:number-truncate, classNam :is-showing, selfBroadcast: Cr 





false” itemprop="telephone">—</strong> 

><a href="#" class="btn-secondary-point-left set-right" data—broadcast="channel: number-truncate,once:true"” data-analytics="gaEvent: 
R2SPhoneBegin, zenoEvent: PhoneEvent, zenoOpt ions: {adId:1874276630,pageType:VIP" data—toggle="channel: number—-truncate, className: is- rafter { 
disabled, selfBroadcast: false">..</a> ` 


*, :before, 


图 3.4 页面、 感 兴趣 的 字段 及 其 HTML 代 码 








在 图 3.4 中 有 大 量 的 信息 ， 但 其 中 大 部 分 都 是 布局 : logo、 搜 索 框 、 
按钮 等 。 虽 然 这 些 信息 都 很 有 有 用， 但 是 爬虫 并 不 会 对 其 产生 兴趣 。 我 们 
可 能 感 兴趣 的 字段 ， 比 如 说 包括 房 源 的 标题 、 位 置 或 代理 商 的 电话 号 
码 ， 它 们 都 具有 对 应 的 HTML 元 素 ， 我 们 需要 定位 到 这 些 元 系 ， 然 后 使 





用 前 一 市 中 所 摘 述 的 流程 抽取 数据 。 那 么 ， 先 从 标题 开始 吧 (如 图 3.5 
所 示 ) 。 


< Back | United Kingdom / England / London / West London / EarlsCourt / Property / Propertyto Rent / Flats&Housesfor Rent / StudioApartments&Bedsits1 
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iv "class=" "grid container 1 main"> 
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图 3.5 ”抽取 标题 


右键 单 击 页 面 上 的 标题 ， 并 选择 Inspect Element 。 这 样 就 可 以 看 到 
相应 的 HTML 源 代码 了 。 现 在 ， 尝 试 通过 右键 单 击 并 选择 Copy XPath 
， 抽 取 标 题 的 XPath 表达 式 。 你 会 发 现 Chrome 浏 览 器 给 我 们 的 XPath 表 
达 式 很 精确 ， 但 又 十 分 复杂 ， 因 此 该 表达 式 是 非常 脆弱 的 。 我 们 将 对 其 
进行 一 些 简化 ， 只 使 用 最 后 的 一 部 分 ， 通 过 使 用 表达 式 //h1 ， 选 择 在 
页 面 中 可 以 看 到 的 任何 H1 元 素 。 尽 管 这 种 方式 有 些 误导 ， 因 为 我 们 并 
不 是 真 的 需要 页 面 中 的 每 一 个 HL ， 不 过 实际 上 这 里 只 有 标题 使 用 了 H1 
而 作为 优秀 的 SEO 实 践 ， 每 个 页 面 应 当 只 有 一 个 H1 元 素 ， 并 且 大 部 
分 网 站 确实 是 这 样 的 。 





Q 
SEO 是 Search Engine Optimization 〈 搜 索引 擎 优化 ) 的 缩写 ， 即 通过 优 
化 网 站 代码 、 内 容 和 出 入 站 链接 的 流程 ， 实 现 提 供给 搜索 引擎 的 最 佳 方式 。 






































我 们 来 检查 下 该 XPath 表 达 式 能 否 在 scrapy shell 中 良好 运行 


>>> response.xpath('//h1/text()').extract() 


[u'set unique family well'] 





非常 好 ， 完 美工 作 。 你 应 该 已 经 注意 到 我 在 //hli 表达 式 的 结尾 处 
添加 了 /text() 。 如 果 想 要 只 抽取 H1 元 素 所 包含 的 文本 内 容 ， 而 不 








古 H1 元 素 目 身 的 话 ， 就 需要 使 用 到 它 。 我 们 通常 都 会 使 用 /text() 来 
获得 文本 字段 。 如 果 忽 略 它 ， 就 会 得 到 整个 元 素 的 文本 ， 包 括 并 不 需要 
的 标记 。 


>>> response.xpath('//h1').extract() 


[u'<h1 itemprop="name" class="space-mbs">set unique family well</h1>' ] 





IERT, RAIRE TAS RE Chl) AAC 
码 ， 不 过 如 果 你 观察 得 更 仔细 的 话 ， 就 会 发 现 还 有 一 种 更 好 更 简单 的 方 
法 也 可 以 做 到 。 


Gumtree 通 过 微 数 据 标记 注解 它们 的 HTML。 比 如 ， 我 们 可 以 看 
到 ， 在 其 头 部 有 一 个 itemprop="name'" 的 属性 ， 如 图 3.6 所 示 。 非 常 
好 ， 这 样 我 们 就 可 以 使 用 一 个 更 简单 的 XPath 表 达 式 ， 而 不 再 包含 任何 
可 视 化 元 素 了 ， 此 时 得 到 的 表达 式 为 //*[@itemprop="name"] 
[1]/text() 。 你 可 能 会 奇怪 为 什么 我 们 选择 了 包含 itemprop="name" 
的 第 一 个 元 素 。 








<h1 itemprop="name" class=" space-mbs">..</h1> 


图 3.6” Gumtree 拥有 微 数据 标记 











稍 等 ! 你 是 说 第 一 个 ? 如 果 你 是 一 个 经 验 丰富 的 程序 员 ， 可 能 已 经 





将 array[1] 作为 数组 的 第 二 个 元 素 了 。 令 人 惊讶 的 是 ，XPath 是 从 1 开始 
的 ， 因 此 array[1] 是 数组 的 第 一 个 元 素 。 








Oh 





我 们 这 么 做 ， 不 只 是 因为 temprop="name" 在 许多 不 同 的 上 下 文 
o 还 因为 Gumtree 在 其 页 面 的 “你 可 能 还 喜 

eee ”部 分 为 其 他 属性 使 用 了 髓 套 的 信息 ， 以 这 种 方式 阻止 我 们 对 其 
on 只 别 。 尽 管 如 此 ， 这 并 不 是 一 个 大 问题 。 我 们 只 需要 选择 第 一 个 ， 
而 且 我 们 也 将 使 用 同样 的 方式 处 理 其 他 字段 。 


让 我 们 来 看 一 下 价格 。 价 格 被 包含 在 如 下 的 HTML 结 构 当 中 。 


<strong class="ad-price txt-xlarge txt-emphasis" itemprop="price"> 
£334. 39pw</strong> 





我 们 又 一 次 看 到 了 itemprop="name" 这 种 形式 ， 太 棒 了 。 此 时 ， 
XPath 表达 式 将 会 是 //*[@itemprop="price"][1]/text() 。 我 们 来 
iA PAB. 





>>> response. xpath('//*[@itemprop="price"][1]/text()').extract() 


[u'\xa3334.39pw' ] 


我 们 注意 到 ， 这 里 包含 一 些 Unicode 字 符 《〈 英 镑 符号 &) ， 然 后 
征 334.39pw 的 价格 。 这 表明 数据 并 不 总 是 像 我 们 希望 的 那样 和 干将， 所 
以 可 能 还 需要 对 其 进行 一 些 清洗 的 工作 。 比 如 ， 在 本 例 中 ， 我 们 可 能 需 
要 使 用 一 个 正则 表达 式 ， 以 便 只 选择 数字 和 点 号 。 可 以 使 用 re() 方法 
做 到 这 一 要 求 ， 并 使 用 一 个 简单 的 正则 表达 式 蔡 代 extract()。 


>>> response. xpath('//*[@itemprop="price"][1]/text()').re('[.0-9]+') 


[u'334.39'] 





这 里 使 用 了 一 个 response 对 象 ， 并 调用 了 它 的 xpath() 方法 来 抽取 感 
兴趣 的 值 。 不 过 ，xpath() 返回 的 值 是 什么 呢 ? 如 果 在 一 个 简单 的 XPath 表 
达 式 中 ， 不 使 用 .extract() 方法 ， 将 会 得 到 如 下 的 显示 输出 : 


| 


















































>>> response.xpath('.') 


[<Selector xpath='.' data=u'<html>\n<head>\n<meta 


charse'>] 





xpath() 返回 了 网 页 内 容 预 加 载 的 Selector 对 象 。 我 们 目前 只 使 用 了 
xpath() 方法 ， 不 过 它 还 有 男 一 个 有 用 的 方法 : css() 。xpath() 和 css() 
都 会 返回 选择 器 ， 只 有 当 调 用 extract() 或 re() 方法 的 时 候 ， 才 会 得 到 真 


























实 的 文本 数组 。 这 种 方式 非常 好 用 ， 因 为 这 样 就 可 以 将 xpath() 和 css() 操 
作 串 联 起 来 了 。 比 如 ， 可 以 使 用 css() 快速 抽取 正确 的 HTML 元 素 。 








>>> response.css('.ad-price' ) 


[<Selector xpath=u"descendant-or-self::*[@class and 


contains(concat(' 


» normalize-space(@class), ' '), 


ad-price ')]" data=u'<strong class="ad-price txt-xlarge 


txt-e'>] 





请 注意 ， 在 后 台中 css() 实际 上 编译 了 一 个 xpath() 表达 式 ， 不 过 我 们 

















输入 的 内 容 要 比 XPath 自 身 更 加 简单 。 接 下 来 ， 串 联 一 个 xpath() 方法 ， 只 
抽取 其 中 的 文本 。 








>>> response.css('.ad-price').xpath('text()') 


[<Selector xpath='text()' data=u'\xa3334.39pw'>] 


最 后 ， 还 可 以 通过 re() 方法 ， 串 联 上 正则 表达 式 ， 以 抽取 感 兴 趣 的 
值 。 





>>> response.css('.ad-price').xpath('text()').re('[.0- 


9]+') 


[u'334.39'] 


pO 


实际 上 ， 这 个 表达 式 与 原始 表达 式 相 比 ， 并 无 好 坏 之 差 。 请 把 它 当 作 一 
个 引起 思考 的 说 明 性 示例 。 在 本 书 中 ， 我 们 将 尽 可 能 保持 事物 简单 ， 同 时 也 
会 尽 可 能 多 地 使 用 虽然 有 些 老 旧 但 仍然 好 用 的 XPath。 关 键 点 是 记 
fExpath() 和 css() 返回 的 Selector 对 象 是 可 以 被 串联 起 来 的 。 为 了 获取 









































真实 值 ， 可 以 使 用 extract() ， 也 可 以 使 用 re() 。 在 Scrapy 的 每 个 新 版 本 
当中 ， 都 会 围绕 这 些 类 添加 新 的 令 人 兴奋 且 高 价值 的 功能 。 相 关 的 Scrapy 文 
档 部 分 为 http://doc.scrapy.org/en/latest/topics/selectors.html 
。 该 文档 非常 优秀 ， 相 信 你 可 以 从 中 找到 抽取 数据 的 最 有 效 的 方式 。 














描述 文本 的 抽取 也 是 相似 的 。 有 一 个 itemprop="description" 
的 属性 用 于 标示 描述 。 其 XPath 表 达 式 为 //* 
[@itemprop="description"][1]/text() 。 相 似 地 ， 住 址 部 分 使 
用 itemtype="http://schema.org/ Place" 注解 Atk, XPath 表 
达 式 为 //*[@itemtype="http://schema.org/Place"][1]/text() 


o 


同 理 ， 图 片 使 用 了 itemprop="image"”。 因 此 使 
用 //img[@itemprop="image"][1]/@src 。 这 里 需要 注意 的 是 ， 我 们 
没有 使 用 /text() ， 这 是 因为 我 们 并 不 需要 任何 文本 ， 而 是 只 需要 包 合 
图 片 URL 的 src 属性 。 


假设 这 些 是 我 们 想 要 抽取 的 全 部 信息 ， 我 们 可 以 将 其 总 结 到 表 3.1 
rH 


423.1 








基本 字段 XPath 表达 式 





//*[@itemprop="name" ][1]/text() 
title a 
示例 值 : [u'set unique family well'] 
//*[@itemprop="price"][1]/text() 
price 
示例 值 ( 使 用 re() ) : [u'334.39'] 
//*[@itemprop="description"][1]/text() 
description S 
示例 值 : [u'website court warehouse\r\npool...'] 


























//*[@itemtype="http://schema.org/Place"][1]/text() 
address a 
示例 值 : [u'Angel, London'] 
//*[@itemprop="image"][1]/@src 
image_urls o 
示例 值 : [u'../images/i01.jpg' ] 


现在 ， 表 3.1 就 变 得 非常 重要 了 ， 因 为 如 果 我 们 有 许多 包含 相似 信 
奶 的 网 站 ， 则 很 可 能 需要 创建 很 多 类 似 的 讨 虫 ， 此 时 只 需 改变 前 面 的 这 
些 表 达 式 。 此 外 ， 如 果 想 要 抓 取 大 量 网 站 ， 也 可 以 使 用 这 样 一 张 表格 来 
拆 分 工作 量 。 

















到 目前 为 止 ， 我 们 主要 在 使 用 HTML 和 XPath。 接 下 来 ， 我 们 将 开 
始 编写 一 些 真 正 的 Python 代码 。 


3.3 ”一 个 Scrapy 项 目 


到 目前 为 止 ， 我 们 只 是 在 通过 scrapy shelli i ME, BEZA 


己 经 拥有 了 用 于 开始 第 一 个 Scrapy 项 目的 所 有 必要 组 成 部 分 ， 那 么 让 我 
们 按 下 Ctrl + D 退出 scrapy shell 吧 。 需 要 注意 的 是 ， 你 现在 输入 的 所 有 

内 容 都 将 丢失 。 显 然 ， 我 们 并 不 希望 在 每 次 候 取 某 些 东 西 的 时 候 都 要 输 
入 代码 ， 因 此 一 定 要 说 记 scrapy shell 只 是 一 个 可 以 帮助 我 们 调试 页 面 、 

XPath 表达 式 和 Scrapy 对 象 的 工具 。 不 要 花费 大 量 时 间 在 这 里 编写 复杂 

代码 ， 因 为 一 旦 你 退出 ， 这 些 代码 就 都 会 丢失 。 为 了 编写 真实 的 Scrapy 
代码 ， 我 们 将 使 用 项 目 。 下 面 创建 一 个 Scrapy 项 目 ， 并 将 其 命名 

为 "properties"， 因 为 我 们 正在 抓 取 的 数据 是 房产 。 





$ scrapy startproject properties 


$ cd properties 


$ tree 


— properties 


| — init__.py 


| ļ— items.py 


| |— pipelines. py 


| ļ— settings.py 


L— spiders 


[一 init__.py 


L— scrapy.cfg 


2 directories, 6 files 





Q 
提醒 一 下 ， 你 可 以 从 GitHub 中 获得 本 书 的 全 部 源 代码 。 要 下 载 该 代码 ， 
可 以 使 用 如 下 命令 : 





git clone https://github.com/scalingexcellence/ 


scrapybook 


























本 章 的 代码 在 che3 目录 中 ， 其 中 该 示例 的 代码 在 che3/properties H 
录 中 。 








我 们 可 以 看 到 这 个 Scrapy 项 目的 目录 结构 。 命 令 scrapy 
startproject properties 创建 了 一 个 以 项 目 名 命名 的 目录 ， 其 中 包 
含 3 个 我 们 感 兴 趣 的 文件 ， 分 别 是 items.py 、pipelines.py 和 
settings.py 。 这 里 还 有 一 个 名 为 spiders 的 子 目 录 ， 目 前 为 止 该 目 
录 是 空 的 。 在 本 章 中 ， 我 们 将 主要 在 items.py 文件 和 spiders 目录 中 
工作 。 在 后 续 的 章节 里 ， 还 将 对 设置 、 管 道 和 scrapy .cfg 文件 有 更 多 
探索 。 














3.3.1 声明 item 


我 们 使 用 一 个 文件 编辑 器 打开 items .py 文件 。 现 在 该 文件 中 已 经 
包含 了 一 些 模板 代码 ， 不 过 还 需要 针对 用 例 对 其 进行 修改 。 我 们 将 重 定 
义 PropertiesItem 类 ， 添 加 表 3.2 中 总 结 出 来 的 字段 。 


我 们 还 会 添加 几 个 字段 ， 我 们 的 应 用 在 后 续 会 用 到 这 些 字 段 (这样 
之 后 就 不 需要 再 修改 这 个 文件 了 ) 。 本 书后 续 的 内 容 会 深入 解释 它们 。 
需要 重点 注意 的 一 个 事情 是 ， 我 们 声明 一 个 字段 并 不 意味 独 我 们 将 在 每 
个 礁 虫 中 都 填充 该 字段 ， 或 是 全 部 使 用 它 。 你 可 以 随意 诡 加 任何 你 感觉 
合适 的 字段 ， 因 为 你 可 以 在 之 后 更 正 它 们 。 














表 3.2 


Python 表达 式 
































图 像 管道 将 会 基于 image_urls 自动 填充 该 字段 。 可 以 在 后 续 的 章节 中 了 解 
更 多 相关 内 容 








images 
































我 们 的 地 理 编 码 管 真 充 该 字段 。 可 以 在 后 续 的 章节 中 了 解 
更 多 相关 的 内 容 














location 





我 们 还 会 添加 一 些 管 理 字段 〈 见 表 3.3) 。 这 些 字 段 不 是 特定 于 某 
个 应 用 程序 的 ， 而 是 我 个 人 感 兴 趣 的 字段 ， 可 能 会 在 未 来 帮助 我 调试 疏 
虫 。 你 可 以 在 项 目 中 选择 其 中 的 一 些 字 段 ， 当 然 也 可 以 不 选择 。 如 采 你 
仔细 观察 这 些 字段 ， 丈 会 明白 它们 可 以 让 我 清楚 何 地 (server、url) 、 
何 时 (date〉、 如 何 (spider) 执行 的 抓 取 。 它 们 还 可 以 自动 完成 一 些 任 
务 ， 比 如 使 iem 失 效 、 规 划 新 的 抓 取 运 代 或 是 删除 来 自 有 问题 的 爬虫 的 
item。 如 果 你 还 不 能 理解 所 有 的 表达 式 ， 尤 其 是 server 的 表达 式 ， 也 不 
用 担心 。 当 我 们 进入 到 后 面 的 章节 时 ， 这 些 都 会 变 得 越 来 越 清 楚 。 








表 3.3 


response.url 




















示例 值 : 'http://web.../property 686806060. html' 


self.settings.get('BOT_ NAME') 


示例 值 : "properties' 


self.name 


示例 值 : 'basic' 





socket.gethostname() 
server 


示例 值 : "scrapyserver1' 


datetime. datetime. now() 


示例 值 : datetime.datetime(2015, 6, 25...) 





给 出 字段 列表 之 后 ， 再 去 修改 并 目 定 义 scrapy startproject 为 
我 们 创建 的 PropertiesItem 类 ， 就 会 变 得 很 容易 。 在 文本 编辑 占 中 ， 
修改 properties/items .py 文件 ， 使 其 包含 如 下 内 容 : 








from scrapy.item import Item, Field 


class PropertiesItem(Item): 
# Primary fields 
title = Field() 
price = Field() 
description = Field() 
address = Field() 
image_urls = Field() 


# Calculated fields 
images = Field() 
location = Field() 


# Housekeeping fields 
url = Field() 

project = Field() 
spider = Field() 
server = Field() 

date = Field() 














由 于 这 实际 上 是 我 们 在 文件 中 编写 的 第 一 个 Python 代码 ， 因 此 需要 


重点 指出 的 是 ，Python 使 用 缩 进 作 为 其 语法 的 一 部 分 。 在 每 个 字段 的 起 
始 部 分 ， 会 有 精确 的 4 个 空格 或 1 个 制 表 符 ， 这 一 点 非常 重要 。 如 果 你 在 
其 中 一 行使 用 了 4 个 空格 ， 而 在 另 一 行使 用 了 3 个 空格 ， 就 会 出 现 语法 错 
误 。 如 果 你 在 其 中 一 行使 用 了 4 个 空格 ， 而 在 男 一 行使 用 了 制 表 符 ， 同 
样 也 会 产生 语法 错误 。 这 些 空格 在 PropertiesItem 类 下 ， 将 字段 声明 
组 织 到 了 一 起 。 其 他 语言 一 般 使 用 大 括号 〈{f}) 或 特殊 的 关键 词 ( 如 
begin-end ) 来 组 织 代 码 ， 而 Python 使 用 空格 。 








3.3.2 ”编写 爬虫 


我 们 已 经 在 半路 上 了 了。 现在， 我 们 需要 编写 息 忠 。 通 常 ， 我 们 会 为 
每 个 网 站 或 网 站 的 一 部 分 (如 果 网 站 非常 大 的 话 ) BE ME, ME 
代码 实现 了 完整 的 UR* IM 流 程 ， 我 们 很 快 就 可 以 看 到 。 





Q 

ThA I ee EAM, AR REA We? 项 目 是 由 Item FF eB 
组 成 的 。 如 果 有 很 多 网 站 ， 并 且 需 要 从 中 抽取 相同 类 型 的 Item ， 比 如 : 房 
产 ， 那 么 所 有 这 些 网 站 都 可 以 使 用 同一 个 项 目 ， 并 且 为 每 个 源 /网 站 使 用 一 
个 爬虫 。 反 之 ， 如 果 要 处 理 图 书 及 房产 这 两 种 不 同 的 源 时 ， 则 应 该 使 用 不 同 
的 项 目 。 















































当然 ， 可 以 在 文本 编辑 器 中 从 头 开 始 创建 一 个 朴 虫 ， 不 过 为 了 减少 
一 些 输入 ， 更 好 的 方法 是 使 用 scrapy genspider 命令 ， 如 下 所 示 。 





$ scrapy genspider basic web 


Created spider 'basic' using template 'basic' in module: 


properties.spiders.basic 





现在 ， 如 果 再 次 运行 tree 命令 ， 就 会 注意 到 与 之 前 相 比 唯一 的 不 
同 是 在 properties/spiders 目录 中 增加 了 一 个 新 文件 basic.py 。 前 
面 的 命令 所 做 的 工作 就 是 创建 了 一 个 名 为 "basic" WRU ER, FFA 
Ze eR PR AR pee web 域名 下 的 URL 。 如 果 需 要 的 话 ， 可 以 很 容 
aan XS Ril], MEHARRA i SMEREH "basic" 模板 创 

。 你 可 以 通过 输入 scrapy genspider-1 来 查看 其 他 可 用 的 模板 ， 然 
e genspider 时 ， 通 过 -t 参数， 使 用 任意 其 他 模板 创 
建 怜 虫 。 在 本 章 稍 后 的 部 分 ， 我 们 将 会 看 到 一 个 示例 。 





人 


Q 


Scrapy 有 许多 子 目 录 。 我 们 一 般 假 设 你 位 于 包含 scrapy.cfg 文件 的 目 
录 中 。 这 是 项 目的 “顶级 ”目录 。 现 在 ， 每 当 我 们 引用 Python“ 包 ”和 “ 模 








块 ? 时 ， 它 们 就 是 以 映射 目录 结构 的 方式 设置 的 。 比 如 ， 输 出 提 到 了 
properties.spiders.basic ， 就 是 指 properties/spiders 目录 中 的 
basic.py 文件 。 我 们 早 前 定义 的 PropertiesItem 类 是 

在 properties.items 模块 中 ， 该 模块 对 应 的 就 是 properties 目录 中 的 








items .py 文件 。 





如 果 查 看 properties/spiders/basic.py 文件 ， 可 以 看 到 如 下 代 
Wre 


import scrapy 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed_domains = ["web"] 
start_urls = ( 
"http: //www.web/", 


def parse(self, response): 
pass 





import 语句 能 够 让 我 们 使 用 Scrapy 框 架 中 已 有 的 类 。 下 面 是 扩展 

自 scrapy.Spider 的 BasicSspider 类 的 定义 。 通 过 “扩展 ”的 方式 ， 尽 
管 我 们 实际 上 没有 写 任 何 代 码 ， 但 是 该 类 已 经 “继承 ”了 Scrapy 框 架 中 的 
Spider 类 的 相当 一 部 分 功能 。 这 样 ， 就 可 以 只 额外 编写 少量 的 代码 

行 ， 而 获得 一 个 完整 运行 的 疏 虫 了 。 然 后 ， 我 们 可 以 看 到 一 些 爬 虫 的 参 
数 ， 比 如 它 的 名 字 以 及 我 们 允许 其 爬 取 的 域名 。 最 后 是 空 函 PER) 
的 定义 ， 该 函数 包含 了 两 个 参数 ， 分 别 是 self 和 response 对 象 。 通 过 
使 用 self 引用 ， 我 们 就 可 以 使 用 扑 虫 中 感 兴趣 的 功能 了 。 而 男 一 个 对 














象 response ， 我 们 应 该 很 熟悉 ， 它 就 是 我 们 在 scrapy shell 中 使 用 过 的 
response 对 象 。 


Q 
ZERRE Pe. ABE RE, RAN SE ST ie 
的 。 即 使 在 最 坏 的 情况 下 ， 你 还 可 以 使 


Firmproperties/spiders/basic.py* 删除 文件 ， 然 后 再 重新 生成 。 尽 情 
发 挥 吧 ! 





















































好 了 ， 让 我 们 开始 改造 吧 。 首 先 ， 要 使 用 在 scrapy shell 中 使 用 过 的 
那个 URL， 对 应 地 设置 到 start_urls 参数 中 。 然 后 ， 将 使 用 把 虫 预定 
义 的 方法 1og() ， 输 出 在 基本 字段 表 中 总 结 的 所 有 内 容 。 修 改 
后 ，properties/spiders/basic.py 的 代码 如 下 所 示 。 











import scrapy 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed domains = ["web"] 
start_urls = ( 
"http: //web:9312/properties/property_9090eee.htm1', 


) 


def parse(self, response): 
self.log("title: %s" % response. xpath( 
'//*[@itemprop="name" ][1]/text()').extract()) 
self.log("price: %s" % response. xpath( 
'//*[@itemprop="price" ][1]/text()').re('[.0-9]+')) 
self.log("description: %s" % response. xpath( 
'//*[@itemprop="description" ][1]/text()').extract()) 
self.log("address: %s" % response. xpath( 
"//*[@itemtype="http://schema.org/' 
"Place" |[1]/text()').extract()) 
self.log("image urls: %s" % response. xpath( 


'//*[@itemprop="image" ][1]/@src').extract()) 





Q 
我 将 会 不 时 地 修改 格式 ， 以 便 在 屏幕 和 纸张 中 都 能 很 好 地 显示 。 这 并 不 
意味 着 它 有 什么 特殊 的 含义 。 








等 了 这 么 久 ， 终 于 到 了 运行 仆 虫 的 时 候 了 。 我 们 可 以 使 用 命令 
scrapy crawl 以 及 扑 虫 的 名 称 来 运行 仆 虫 。 





$ scrapy crawl basic 


INFO: Scrapy 1.6.3 started (bot: properties) 


INFO: Spider opened 


DEBUG: Crawled (200) <GET http://...@00.htm1> 


DEBUG: title: [u'set unique family well'] 


DEBUG: price: [u'334.39'] 


DEBUG: description: [u'website...'] 


DEBUG: address: [u'Angel, London' ] 


DEBUG: image_urls: [u'../images/i@1. jpg’ ] 


INFO: Closing spider (finished) 


非常 好 ! 不 要 被 大 量 的 日 志 行 吓 倒 。 我 们 将 会 在 后 续 的 章节 中 更 详 
细 地 研究 其 中 的 一 部 分 ， 不 过 对 于 现在 而 言 ， 只 需要 注意 到 所 有 使 用 
XPath 表 达 式 收集 到 的 数据 确实 能 够 通过 这 个 简单 的 候 虫 代码 抽取 出 来 
就 可 以 了 。 

让 我 们 再 来 试验 一 下 另 一 个 命令 : scrapy parse 。 它 允许 我 们 使 
用 “最 合适 ”的 爬虫 来 解析 参数 中 给 定 的 任意 URL 。 我 不 喜欢 抱 有 侥幸 心 
理 ， 所 以 我 们 使 用 它 结合 --spider 人 参数 来 设置 怜 虫 。 


$ scrapy parse --spider=basic http://web:9312/properties/property_0000Q@1. 








PRANAMA, JR SE Ee FB 


scrapy parse 同样 也 是 一 个 相当 方便 的 调试 工具 。 在 任何 情况 下 ， 如 
果 你 想 “ 认 真 ” 抓 取 的 话 ， 应 当 使 用 主 命令 scrapy crawl 。 





























3.3.3 HH Titem 





我 们 将 会 对 前 面 的 代码 进行 少量 修改 ， 以 填充 PropertiesItem 。 
你 将 会 看 到 ， 尽 管 修 改 非 常 轻微 ， 但 是 会 “解锁 ?大量 的 新 功能 。 


首先 ， 需 要 引入 PropertiesItem 类 。 如 前 所 述 ， 它 
在 properties 目录 的 items .py 文件 中 ， 也 就 是 properties.items 
模块 中 。 我 们 回 到 properties/spiders/basic.py 文件 ， 使 用 如 下 命 
令 引 入 该 模块 。 


from properties.items import PropertiesItem 





然后 需要 进行 实例 化 ， 并 返回 一 个 对 象 。 这 非常 简单 。 在 parse() 
方法 中 ， 可 以 通过 添加 item = PropertiesItem() 语句 创建 一 个 新 的 
item， 然 后 可 以 按 如 下 方式 为 其 字段 分 配 表达 式 。 


item['title'] = 
response. xpath('//*[@itemprop="name" ][1]/text()').extract() 





最 后 ， 使 用 return item 返回 item。 最 新 版 的 
properties/spiders/basic. py 代码 如 下 所 示 。 


import scrapy 
from properties.items import PropertiesItem 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed_domains = ["web"] 
start_urls = ( 
"http: //web:9312/properties/property_9eeeee.htm1', 


def parse(self, response): 
item = PropertiesItem() 
item['title'] = response. xpath( 
'//*[@itemprop="name" ][1]/text()').extract() 


item['price'] = response. xpath( 
'//*[@itemprop="price" ][1]/text()').re('[.0-9]+') 
item['description'] = response.xpath( 
'//*[@itemprop="description" ][1]/text()').extract() 
item['address'] = response. xpath( 
"//*[@itemtype="http://schema.org/' 
"Place" ][1]/text()').extract() 
item[ ‘image _urls'] = response. xpath( 
'//*[@itemprop="image" ][1]/@src').extract() 
return item 





现在 ， 如 果 你 再 像 之 前 那样 运行 scrapy crawl basic, WERI 
一 个 非常 小 但 很 重要 的 区 别 。 我 们 不 再 在 日 志 中 记录 抓 取 值 ( 所 以 没有 
含 字段 值 的 DEBUG: 行 了 ) ， 而 是 看 到 如 下 的 输出 行 。 











DEBUG: Scraped from <200 
http://...0e0.htm1> 
{'address': [u'Angel, London'], 
"description': [u'website ... offered'], 
“image_urls': [u'../images/i01.jpg'], 
'price': [u'334.39'], 


"title': [u'set unique family well']} 





这 是 从 本 页 面 抓 取得 到 的 PropertiesItem 。 非 常 好 ， 因 为 Scrapy 





是 围绕 着 Items 的 概念 构建 的 ， 也 就 是 说 你 现在 可 以 使 用 后 续 章 节 中 介 
绍 的 管道 ， 对 其 进行 过 滤 和 丰富 了 ， 并 且 可 以 通过 “Feed exports” 将 其 以 
不 同 的 格式 导出 存储 到 不 同 的 地 方 。 


3.3.4 保存 文件 
请 尝试 如 下 的 取 示例 。 








$ scrapy crawl basic -o items.json 


$ cat items.json 


[{"price": ["334.39"], "address": ["Angel, London"], "description": 


["website court ... offered"], "image urls": ["../images/i01.jpg"], 


"title": ["set unique family well"]}] 


$ scrapy crawl basic -o items.jl 


$ cat items.jl 


{"price": ["334.39"], "address": ["Angel, London"], "description": 


["website court ... offered"], "image urls": ["../images/i01.jpg"], 


"title": ["set unique family well"]} 


$ scrapy crawl basic -o items.csv 


$ cat items.csv 


description, title,url,price,spider,image urls... 


",..offered",set unique family well, ,334.39,,../images/i01. jpg 


$ scrapy crawl basic -o items.xml 


$ cat items.xml 


<?xml version="1.0" encoding="utf-8" ?> 


<items><item><price><value>334.39</value></price>...</item></items> 








我 们 不 需要 编写 任何 额外 的 代码 ， 就 可 以 保存 为 这 些 不 同 的 格式 。 
Scrapy 在 妖 后 识别 你 想 要 输出 的 文件 扩展 名 ， 并 以 适当 的 格式 输出 到 文 








件 中 。 前 面 的 格式 畴 盖 了 一 些 最 常见 的 用 例 。CSV 和 XML 文件 非常 流 
行 ， 因 为 类 似 微软 Excel 的 电子 表格 程序 可 以 直接 打开 它们 。JSON 文 件 
在 网 上 非常 流行 ， 原 因 是 它们 富有 表现 力 而 且 与 JavaScript 的 关系 相当 密 
切 。JSON 与 JSON 行 (JSON Line) 格式 的 轻微 不 同 是 ，.json 文件 是 
在 一 个 大 数组 中 存储 JSON 对 象 的 。 这 就 意味 着 如 果 你 有 一 个 1GB 的 文 
件 ， 你 可 能 不 得 不 在 使 用 典型 的 解析 器 解析 之 前 ， 将 其 全 部 存 入 内 存 当 
中 。 而 .jl 文件 则 是 每 行 包含 一 个 JSON 对 象 ， 所 以 它们 可 以 被 更 高 效 
地 读 取 。 











将 你 生成 的 文件 保存 到 文件 系统 之 外 的 地 方 也 很 容易 。 比 如 ， 通 过 
使 用 如 下 命令 ，Scrapy 可 以 自动 将 文件 上 传 到 FTP 或 53 存 储 桶 中 。 


$ scrapy crawl basic -o "ftp://user:pass@ftp.scrapybook.com/items.json " 


$ scrapy crawl basic -o "s3://aws_key:aws_secret@scrapybook/items. json" 





需要 注意 的 是 ， 除 非 凭证 和 URL 都 更 新 为 与 有 效 的 主机 /S3 提 供 商 
相 匹 配 ， 和 否则 该 示例 无 法 工作 。 





我 的 MySQL 驱 动 在 哪里 ? 起 初 ， 我 也 对 Scrapy 缺 少 针对 MySQL 或 其 他 
数据 库 的 内 置 文 持 感 到 惊讶 。 而 实际 上 ， 没 有 什么 是 内 置 的 ， 这 与 Scrapy 的 
思考 方式 是 完全 违背 的 。Scrapy 的 目标 是 快速 和 可 扩展 。 它 使 用 了 很 少 的 
CPU， 以 及 尽 可 能 高 的 入 站 带宽 。 从 性 能 的 角度 来 看 ， 将 数据 插入 到 大 部 分 
关系 型 数据 库 将 会 是 一 场 灾 难 。 当 需要 将 item 插 入 到 数据 库 时 ， 必 须 将 其 先 
存储 到 文件 当中 ， 然 后 再 使 用 批量 加 载 机 制导 入 它们 。 在 第 9 章 中 ， 我 们 将 
会 看 到 多 种 高 效 的 方式 ， 用 来 将 独立 的 item 导 入 到 数据 库 中 。 

























































































意 的 另 一 件 事 是 ， 如 果 你 现在 答 试 使 用 scrapy parse 
mere CAM Witem, WARRANT CAMB AR 


i 
HE 
ald 
t 
5 





$ scrapy parse --spider=basic http://web:9312/properties/property_000001. 


html 


INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Spider closed (finished) 


>>> STATUS DEPTH LEVEL 1 <<< 


# Scraped Items 一 一- 


[{'address': [u'Plaistow, London'], 


‘description’: [u'features'], 


"image_urls': [u'../images/i@2.jpg'], 


"price': [u'388.03'], 


"title': [u'belsize marylebone...deal']}] 





在 调试 给 出 意料 之 外 的 结果 的 URL 时 ， 你 会 更 加 感激 scrapy 


parse 。 


3.3.5 “清理 item 装 载 器 与 管理 字段 





恭喜 ， 你 在 创建 基础 朴 虫 方面 做 得 不 错 ! 下 面 让 我 们 做 得 更 专业 一 


SME 


首先 ， 我 们 使 用 一 个 强大 的 工具 类 一 ItemLoader ， 以 蔡 代 那些 
杂乱 的 extract() 和 xpath() 操作 。 通 过 使 用 该 类 ， 我 们 的 parse() 
方法 会 按 如 下 进行 代码 变更 。 








def parse(self, response): 
l = ItemLoader(item=PropertiesItem(), response=response) 


l.add_xpath('title', '//*[@itemprop="name"][1]/text()') 
l.add_xpath('price', './/*[@itemprop="price"]' 
"[1]/text()', re='[,.0-9]+') 


l.add_xpath('description', '//*[@itemprop="description" ]' 
'[1]/text()') 

l.add_xpath('address', '//*[@itemtype=' 
'"http://schema.org/Place"][1]/text()') 

l.add_xpath('image_urls', '//*[@itemprop="image"][1]/@src') 


return 1.load_item() 








好 多 了 ， 是 不 是 ? 不过， 这 种 写法 并 不 只 是 在 视觉 上 更 加 舒适 ， 它 
还 非 第 明确 地 声明 了 我 们 意图 去 做 的 事情 ， 而 不 会 将 其 与 实现 细 市 混 活 











起 来 。 这 就 使 得 代码 具有 更 好 的 可 维护 性 以 及 目 描述 性 。 


ItemLoader 提供 了 许多 有 趣 的 结合 数据 及 对 数据 进行 格式 化 和 清 

洗 的 方式 。 请 注意 ， 此 类 功能 的 开发 非常 活跃 ， 因 此 请 碍 疝 Scrapy 优 秀 
的 官方 文档 来 发 现 使 用 它们 的 更 高 效 的 方式 ， 文 档 地 址 为 
http://doc.scrapy.org/en/latest/topics/loaders.html 
> Itemloaders iH [Fl AY Mb BESS (UE X Path/CSS AIA SUN (Ho Mb F aS 

是 一 个 快速 而 又 简单 的 函数 。 处 理 器 的 一 个 例子 是 Join() 。 假 设 你 已 
经 使 用 类 似 //p 的 XPath 表 达 式 选取 了 很 多 个 段落 ， 该 处 理 器 可 以 将 这 
些 段 落 结合 成 一 个 条 目 。 男 一 个 非常 有 意思 的 处 理 器 是 MapCompose() 
。 通 过 该 处 理 器 ， 你 可 以 使 用 任意 Python 函数 或 Python 函数 链 ， 以 实现 
复杂 的 功能 。 比 如 ，MapCompose(float) 可 以 将 字符 串 数据 转换 为 数 
值 ， 而 MapCompose(Unicode.strip，Unicode.title) 可 以 删除 多 
余 的 空白 符 ， 并 将 字符 串 格式 化 为 每 个 单词 均 为 站 字母 大 写 的 样式 。 让 
我 们 看 一 些 处 理 器 的 例子 ， 如 表 3.4 所 示 。 











表 3.4 


| 


























MapCompose(unicode.strip) | 去 除 首 


MapCompose(unicode.strip, jMapCompose (unicode .Strip) 相同 ， 


unicode. title) 标题 格式 





MapCompose(lambda i: 


i.replace 将 字符 串 转 为 数值 ， 并 忽略 可 能 存在 的 ,字符 


(，，”)，float) 


MapCompose(lambda i: 


以 response.url 为 基础 ， 将 UREL 相 对 路 径 转 换 为 URL 绝 对 
路 径 


urljoin (response.url, i)) 











urlparse. 





你 可 以 使 用 任何 Python 表达 式 作 为 处 理 器 。 可 以 看 到 ， 我 们 可 以 很 
容易 地 将 它们 一 个 接 一 个 地 连接 起 来 ， 比 如 ， 我 们 前 面 给 出 的 去 除 首 尾 

空白 符 以 及 标题 化 的 例子 。unicode.strip() 和 unicode.title() 在 
某 种 意义 上 来 说 比较 简单 ， 它 们 只 有 一 个 参数 ， 并 且 也 只 有 一 个 返回 续 
果 。 我 们 可 以 在 MapCompose 处 理 器 中 直接 使 用 它们 。 而 另 一 些 函数 ， 
像 replace() 或 ur1join() ， 就 会 稍微 有 点 复杂 ， 它 们 需要 多 个 参 
数 。 对 于 这 种 情况 ， 我 们 可 以 使 用 Python 的 “lambda 表达 式 ”。lambda 表 
达 式 是 一 种 简洁 的 函数 。 比 如 下 面 这 个 简洁 的 lambda 表 达 式 。 





myFunction = lambda i: i.replace(',', '') 





FY UMN: 


def myFunction(i): 
return i.replace(',', '') 





通过 使 用 lambda， 我 们 将 类 似 replace() 和 ur1ljoin() 这 样 的 函 
数 包装 在 只 有 一 个 参数 及 一 个 返回 结果 的 函数 中 。 为 了 能 够 更 好 地 理解 
表 3.4 中 的 处 理 器 ， 下 面 看 几 个 使 用 处 理 器 的 例子 。 使 用 scrapy shell 
打开 任意 URL， 然 后 尝试 如 下 操作 。 





>>> from scrapy.loader.processors import MapCompose, Join 


>>> Join()([ hi’, ‘John']) 


u'hi John' 


>>> MapCompose(unicode.strip)([u' I',u' am\n']) 


[u'I', u'am'] 


>>> MapCompose(unicode.strip, unicode.title)([u'nIce cODe' ]) 


[u'Nice Code’ ] 


>>> MapCompose(float)(['3.14']) 


[3.14] 


>>> MapCompose(lambda i: i.replace(',', ''), float)(['1,400.23']) 


[1400.23] 


>>> import urlparse 


>>> mc = MapCompose(lambda i: urlparse.urljoin('http://my.com/test/abc', 


i)) 


>>> mc([ ‘example. html#check' ]) 


[ 'http://my.com/test/example.html#check' ] 


>>> mc([ ‘http: //absolute/url#help' ]) 


[ 'http://absolute/url#help' ] 





这 里 要 解决 的 关键 问题 是 ， 处 理 右 只 是 一 些 简单 小 巧 的 功能 ， 用 来 
对 我 们 的 XPathMCSS 结 果 进 行 后 置 处 理 。 现 在 ， 在 爬虫 中 使 用 几 个 这 样 
的 处 理 器 ， 并 按照 我 们 想 要 的 方式 输出。 


def parse(self, response): 
l.add_xpath('title', '//*[@itemprop="name"][1]/text()', 

MapCompose(unicode.strip, unicode.title)) 

.add_xpath('price', './/*[@itemprop="price"][1]/text()', 
MapCompose(lambda i: i.replace(',', ''), float), 
re='[,.0-9]+') 

.add_xpath('description', '//*[@itemprop="description" ]' 
"[1]/text()', MapCompose(unicode.strip), Join()) 

.add_xpath('address', 
'//*[@itemtype="http://schema.org/Place"][1]/text()', 
MapCompose(unicode. strip) ) 

.add_xpath('image_urls', '//*[@itemprop="image"][1]/@src', 
MapCompose( 
lambda i: urlparse.urljoin(response.url, i))) 





完整 列表 将 会 在 本 章 后 续 部 分 给 出 。 当 你 使 用 我 们 目前 开发 的 代码 
运行 scrapy crawl basic 时 ， 可 以 得 到 更 加 整洁 的 输出 值 。 





"price': [334.39], 


"title': [u'Set Unique Family Well'] 


| 


最 后 ， 我 们 可 以 通过 使 用 add_value( ) 方法 ， 添 加 Python 计算 得 出 
的 单个 值 〈 而 不 是 XPath/CSS 表 达 式 ) 。 我 们 可 以 用 该 方法 设置 “管理 字 
段 "?， 比 如 URL、 钨 虫 名 称 、 时 间 玲 等 。 我 们 还 可 以 直接 使 用 管理 字段 
表 中 总 结 出 来 的 表达 式 ， 如 下 所 示 。 
.add_value('url', response.url) 
.add_value('project', self.settings.get('BOT_NAME')) 
.add_value('spider', self.name) 


.add_value('server', socket.gethostname() ) 
.add_value('date', datetime.datetime.now()) 





为 了 能 够 使 用 其 中 的 某 些 函数 ， 请 记得 引入 datetime 和 socket fi 
块 。 





好 了 ! 我 们 现在 已 经 得 到 了 非常 不 错 的 Item 。 此 刻 ， 你 的 第 一 感 
党 可 能 是 所 做 的 这 些 都 很 复杂 ， 你 可 能 想 要 知道 这 些 工作 是 不 是 值得 付 
出 努力 。 答 案 当然 是 值得 的 一 一 这 是 因为 ， 这 就 是 你 为 了 从 页 面 抽取 数 
据 并 将 其 存储 到 Item 中 几乎 所 有 需要 知道 的 东西 。 如 有 宁 你 从 零 开始 编 
写 ， 或 者 使 用 其 他 语言 ， 该 代码 通 冲 都 会 非常 难看 ， 而 且 很 快 就 会 变 得 
不 可 维护 。 而 使 用 Scrapy 时 ， 只 需要 仅仅 25 行 代码 。 该 代码 十 分 简洁 ， 
用 于 表明 意图 ， 而 不 是 实现 细节 。 你 清楚 地 知道 每 一 行 代码 都 在 做 什 
么 ， 并 且 它 可 以 很 容易 地 修改 、 复 用 及 维护 。 























你 可 能 产生 的 男 一 个 感觉 是 所 有 的 处 理 吕 以 及 ItemLoader 并 不 值 


得 去 努力 。 如 果 你 是 一 个 经 验 丰富 的 Python 开发 者 ， 可 能 会 觉得 有 些 不 
舒服 ， 因 为 你 必须 去 学 习 新 的 类 ， 来 实现 通常 使 用 字符 串 操 作 、lambda 
表达 式 以 及 列表 推导 式 就 可 以 完成 的 操作 。 不 过 ， 这 只 是 ItemLoader 
及 其 功能 的 简要 概述 。 如 果 你 更 加 深入 地 了 解 它 ， 就 不 会 再 回头 

J. ItemLoader 和 处 理 器 是 基于 编写 并 文 持 了 成 干 上 万 个 爬虫 的 人 们 
的 抓 取 需 求 而 开发 的 工具 包 。 如 果 你 准备 开发 多 个 爬虫 的 话 ， 就 非常 值 
得 去 学 习 使 用 它们 。 





3.3.6 ”创建 contract 


contract 有 点 像 为 肘 虫 设计 的 单元 测试 。 它 可 以 让 你 快速 知道 哪里 
有 运行 异 冲 。 例 如 ， 假 设 你 在 几 个 星期 之 前 编写 了 一 个 抓 取 程序 ， 其 中 
包含 几 个 肘 虫 ， 今 天 想 要 检查 一 下 这 些 讨 虫 是 人 否 仍然 能 够 正常 工作 ， 惑 
可 以 使 用 这 种 方式 。contract 包 含 在 紧 挨 着 函数 名 的 注释 〈 即 文档 字符 
P) 中 ， 并 且 以 @ 开 头 。 下 面 来 看 几 个 contract 的 例子 。 
def parse(self, response): 

'" This function parses a property page. 

@url http://web:9312/properties/property_000000.html 


@returns items 1 
@scrapes title price description address image urls 


@scrapes url project spider server date 





上 述 代 码 的 含义 是 ， 检 查 该 URL， 并 找到 我 列 出 的 字段 中 有 值 的 一 


=| 
个 Item。 现 在 ， 当 你 运行 scrapy check 时， 就 会 去 检查 contract 是 否 能 
够 满足 。 


$ scrapy check basic 


Ran 3 contracts in 1.640s 





gnu FRAT GEE RAT RAKE) ， 你 会 得 到 一 个 失 
败 描 述 。 





FAIL: [basic] parse (@scrapes post-hook) 


ContractFail: ‘url' field is missing 





contract 失 败 的 原因 可 能 是 爬虫 代码 无 法 运行 ， 或 者 是 你 要 检查 的 
UREL 的 XPath 表达 式 已 经 过 时 了 。 虽 然 结 果 并 不 详尽 ， 但 它 是 抵御 坏 代 
码 的 第 一 道 灵巧 的 防线 。 


综合 上 面 的 内 容 ， 下 面 给 出 我 们 的 第 一 个 基础 朴 虫 的 代码 。 





from scrapy.loader.processors import MapCompose, Join 
from scrapy.loader import ItemLoader 

from properties.items import PropertiesItem 

import datetime 

import urlparse 

import socket 

import scrapy 


class BasicSpider(scrapy.Spider): 
name = "basic" 
allowed domains = ["web"] 


# Start on a property page 
start_urls = ( 

"http: //web:9312/properties/property_9eeeee.htm1', 
) 


def parse(self, response): 
' This function parses a property page. 
@url http://web:9312/properties/property_900000. html 
@returns items 1 
@scrapes title price description address image urls 
@scrapes url project spider server date 


# Create the loader using the response 
1 = ItemLoader(item=PropertiesItem(), response=response) 


# Load fields using XPath expressions 
l.add_xpath('title', '//*[@itemprop="name"][1]/text()', 
MapCompose(unicode.strip, unicode.title)) 
l.add_xpath('price', './/*[@itemprop="price"][1]/text()', 
MapCompose(lambda i: i.replace(',', ''), 
float), 
re='[,.@-9]+') 
l.add_xpath('description', '//*[@itemprop="description" ] 
"[1]/text()', 
MapCompose(unicode.strip), Join()) 
l.add_xpath('address', 
"//*[@itemtype="http://schema.org/Place"]' 
"[1]/text()', 
MapCompose(unicode.strip)) 
l.add_xpath('image_urls', '//*[@itemprop="image" ] ' 
‘[1]/@src', MapCompose( 
lambda i: urlparse.urljoin(response.url, i))) 


Housekeeping fields 

.add value('url', response.url) 
.add_value('project', self.settings.get('BOT_NAME'’) ) 
.add value('spider', self.name) 

.add_value('server', socket.gethostname() ) 

.add value('date', datetime.datetime.now()) 


ee. 


return 1.load_item() 





3.4 ”抽取 更 多 的 URL 


到 目前 为 止 ， 我 们 使 用 的 只 是 设置 在 爬虫 的 start_urls 属性 中 的 
单一 URL。 而 该 属性 实际 为 一 个 元 组 ， 我 们 可 以 人 硬 编码 写 入 更 多 的 
URL， 如 下 所 示 。 


start urls = ( 


'http://web:9312/properties/property_000000.html', 
'http://web:9312/properties/property_000001.html', 
'http://web:9312/properties/property_000002.html', 





这 种 写法 可 能 不 会 让 你 太 激 动 。 不 过 ， 我 们 还 可 以 使 用 文件 作为 
URL 的 源 ， 写 法 如 下 所 示 。 


start urls = [i.strip() for i in 
open('todo.urls.txt').readlines()] 





这 种 写法 其 实 也 不 那么 令 人 激动 ， 但 它 确实 管用 。 更 经 常 发生 的 情 








况 是 感 兴趣 的 网 站 中 包含 一 些 索引 页 及 房 源 页 。 比 如 ，Gumtree 就 包含 
了 如 图 3.7 所 示 的 索引 页 ， 其 地 址 为 


http: //www.gumtree.com/flats-houses/london 。 


in Help MyGumtree w +) Postan ad 
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图 3.7” ”Gumtree 的 索引 页 


一 个 典型 的 索引 页 会 包含 许多 到 房 源 页 面 的 链接 ， 以 及 一 个 能 够 让 
你 从 一 个 索引 页 前 往 另 一 个 索引 页 的 分 页 系统 。 


因此 ， 一 个 典型 的 疏 虫 会 癌 两 个 方 问 移动 〈 见 图 3.8) : 








sw ~ 
wrt EE Sete cod tens Item S 
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图 3.8 ARAN fal Be oh FS TE 


。 横 同一 一 从 一 个 索引 页 到 为 一 个 索引 页 ; 
© 纵 问 一 一 从 一 个 索引 页 到 房产 页 并 抽取 Item 。 








在 本 书 中 ， 我 们 将 前 者 称 为 水 平息 取 ， 因 为 这 种 情况 下 是 在 同一 
层级 下 疏 取 页 面 《 比 如 索引 页 ) ;而 将 后 者 称 为 垂直 疏 取 ， 因 为 该 方 
式 是 从 一 个 更 高 的 层级 〈 比 如 索引 页 ) 到 一 个 更 低 的 层级 《比如 房 源 
页 ) 。 


实际 上 ， 它 比 听 起 来 更 加 容易 。 我 们 所 有 需要 做 的 事情 就 是 再 增加 
两 个 XPath 表达 式 。 对 于 第 一 个 表达 式 ， 碳 键 单 击 Next Page 按钮 ， 可 以 
注意 到 URL 包 含 在 一 个 链接 中 ， 而 该 链接 又 是 在 一 个 拥有 类 名 next 的 


1i 标签 


式 //*[contains(@class,"next")]//@href , WEA) UREZ 








Earls Court, London 


s0 


Categories 


All Categories 
Property x 
For Sale 
Land, Farms & Estates 
ToRent 


| Network Sources Timeline Profiles Resources Audits Console 


</div> 
> <aside class="grid-col-m-5 hide-fully-to-m hide-fully-from-xl space-phn 
srp-mpu-btm" role="complementary">..</aside> 
w <div class="grid-col-12"> 

<nav class="pagination txt-center pagination-smaller" data-pagination="pagination-main-srp-1"> 

Y <ul class="btn-group"> 

page-first hide-fully-to-l is-active">..</li> 
dots hide-fully-from-1L">..</li> 
hide-fully-to-l">.„</li> 
hide-fully-to-l">..</li> 
hide-fully-to-l">..</li> 
hide-fully-to- </li> 
hide-fully-to-1">..</li> 
dots hide-fully-to-l">..</li> 
page-last hide-fully-to-L">..</li> 










/flats—houses/london/page2" class="btn-secondary" 
</li> 
> <li class="frm-more" aria-hidden="true" data-pagiantion="pagination-main-srp-1">..</li> 


seofter 


图 3.9 查找 下 一 个 索引 页 


对 于 第 二 个 表达 式 ， 右 键 单 击 页面 中 的 列表 标题 
Element ， 如 图 3.10 所 示 。 


Login 


Property 


bedroom fla single roon 









内 ， 如 图 3.9 所 示 。 因 此 ， 我 们 只 需 使 用 一 个 实用 的 XPath 表达 


行 了 。 
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KUREL 的 XPath 表达 式 


， 并 选择 Inspect 
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图 3.10 “查找 列表 页 UREL 的 XPath 表达 式 


请 注意 ，URL 中 包含 我 们 感 兴 趣 的 jtemprop="url" 属性 。 因 此 ， 
表达 式 //*[@itemprop="url"]/@href 就 可 以 正常 运行 。 现 在 ， 打 开 
一 个 scrapy shell 来 确认 这 两 个 表达 式 是 否 有 效 : 











$ scrapy shell http://web:9312/properties/index_90000.html 


>>> urls = response.xpath('//*[contains(@class, "next")]//@href').extract() 


>>> urls 


[u'index_9@001.html1' ] 


>>> import urlparse 


>>> [urlparse.urljoin(response.url, i) for i in urls] 


[u'http: //web :9312/scrapybook/properties/index_00001.htm1' ] 


>>> urls = response.xpath('//*[@itemprop="url"]/@href' ) .extract() 


>>> urls 


[u'property_000000.html', ... u'property_000029.htm1' ] 


>>> len(urls) 


30 


>>> [urlparse.urljoin(response.url, i) for i in urls] 


[u'http://..._©000000.html', ... /property_900029.htm1' ] 


非常 好 ! 可 以 看 到 ， 通 过 使 用 之 前 已 经 学 习 的 内 容 及 这 两 个 XPath 
表达 式 ， 我 们 已 经 能 够 按照 自身 需求 使 用 水 平 抓 取 和 垂直 抓 取 的 方式 抽 
取 URL J. 





3.4.1 (EH EE SEEN XY pay ME RY 
我 们 将 之 前 的 爬虫 揽 贝 到 一 个 新 文件 中 ， 并 命名 为 manual.py 。 





properties scrapy.cfg 


$ cp properties/spiders/basic.py properties/spiders/manual.py 





7Eproperties/spiders/manual.py 文件 中 ， 通 过 添加 from 
scrapy.http import Request 语句 引入 Request task, IRAN 


name 参数 改 为 "manual' ， 修 改 start_urls 以 使 用 第 一 个 索引 页 ， 并 
将 parse() 方法 重 命名 为 parse_item() 。 好 了 ! 现在 开始 编写 一 个 新 
的 parse() 方法 ， 来 实现 水 平和 垂直 两 种 抓 取 方 式 。 


def parse(self, response): 
# Get the next index URLs and yield Requests 
next_selector = response.xpath('//*[contains(@class, ' 
""next") ]//@href' ) 
for url in next_selector.extract(): 
yield Request(urlparse.urljoin(response.url, url) ) 


# Get item URLs and yield Requests 
item_selector = response.xpath('//*[@itemprop="url"]/@href' ) 
for url in item_selector.extract(): 
yield Request(urlparse.urljoin(response.url, url), 
callback=self.parse_item) 





你 可 能 已 经 注意 到 了 前 面 例子 中 的 yield if). yield 与 return 在 某 
种 意义 上 来 说 有 些 相似 ， 都 是 将 返回 值 提供 给 调用 者 。 不 过 ， 和 return 不 
同 的 是 ，yield 不 会 退出 函数 ， 而 是 继续 执行 for 循环 。 从 功能 上 来 说 ， 前 
面 的 例子 与 下 面 的 代码 大 体 相当 : 
































next_requests = [] 


for url in... 
next_requests.append(Request(...)) 

for url in... 
next_requests.append(Request(...)) 


return next_requests 











yield 是 Python“ 魔 法 ”的 一 部 分 ， 它 可 以 使 日 常 的 高 效 编程 工作 更 加 轻 























我 们 现在 已 经 准备 好 运行 该 肘 虫 了 。 不 过 如 果 让 该 怜 虫 以 当前 的 方 
式 运行 的 话 ， 则 会 抓 取 网 站 完整 的 5 万 个 页 面 。 为 了 避免 运行 时 间 过 
长 ， 可 以 通过 命令 行 参 数 : -s CLOSESPIDER_ITEMCOUNT=90, 4 40€ 











虫 在 爬 取 指定 数量 《如 90 个 ) 的 Item 后 停止 运行 《更 多 细节 参见 第 7 
章 ) 。 现 在 ， 我 们 可 以 运行 了 。 





$ scrapy crawl manual -s CLOSESPIDER_ITEMCOUNT=96 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Crawled (200) <...index_00000.html> (referer: None) 


DEBUG: Crawled (200) <...property_@00029.html> (referer: ...index_00000. 


htm1) 


DEBUG: Scraped from <200 ...property_000029.html1> 


{'address': [u'Clapham, London'], 


‘date': [datetime.datetime(2015, 10, 4, 21, 25, 22, 801098)], 


‘description’: [u'situated camden facilities corner'], 


‘image_urls': [u'http://web:9312/images/i10.jpg'], 


"price': [223.88], 


"project': ['properties'], 


"server': ['scrapyserver1'], 


"spider': ['manual'], 


"title': [u'Portered Mile'], 


‘url': ['http://.../property_900029.htm1" ]} 


DEBUG: Crawled (200) <...property_@00028.html> (referer: ...index_00000. 


htm1) 


DEBUG: Crawled (200) <...index_90001.html> (referer: ...) 


DEBUG: Crawled (200) <...property_@@0059.html> (referer: ...) 


INFO: Dumping Scrapy stats: ... 


"downloader/request_count': 94, ... 


"item_scraped_count': 90, 





OUR FA Et TE AT, IS ACE BRANT DST RS OP A E 


直 抓 取 的 结果 。 第 一 个 index_66666.html 读 取 后 ， 派 生出 了 许多 请 
求 。 当 它们 执行 时 ， 调 试 信息 通过 referer URL 指 出 是 谁 发 起 的 请 求 。 
比如 ， 可 以 看 到 ，property_ 68666629 .html 、 

property_666628 .htm1.… 及 index_66661.html 都 有 相同 的 
referer (index_00000.html) 。 而 property 686868659.html 及 其 他 
请 求 则 是 以 index_688661.html 为 referer 的 ， 并 且 该 过 程 还 在 持续 。 


从 该 示例 中 还 可 以 观察 到 ，Scrapy 在 处 理 请 求 时 使 用 的 是 后 入 先 出 
(LIFO) 策略 《“ 即 深度 优先 爬 取 ) 。 用 户 提交 的 最 后 一 个 请 求 会 被 首 
先 处 理 。 在 大 多 数 情况 下 ， 这 种 默认 的 方式 非常 方便 。 比 如 ， 我 们 想 要 
在 移动 到 下 一 个 索引 页 之 前 处 理 每 一 个 房 源 页 时 。 人 否则 ， 我 们 将 会 填充 
一 个 包含 等 仆 取 房 源 页 URL 的 巨大 队列 ， 无 谓 地 消耗 内 存 。 为 外 ， 在 许 
多 情况 中 ， 你 可 能 需要 辅助 的 请 求 来 完成 单个 请 求 ， 我 们 将 会 在 后 面 的 
章节 中 遇 到 这 种 情况 。 你 需要 这 些 辅助 的 请 求 能 够 尽快 完成 ， 以 腾 出 资 
源 ， 并 且 让 被 抓 取 的 Item 能 够 稳定 流动 。 





我 们 可 以 通过 设置 Request() 的 优先 级 参数 修改 默认 顺序 ， 大 于 0 
表示 高 于 默认 的 优先 级 ， 小 于 0 表示 低 于 默认 的 优先 级 。 通 常 来 说 ， 
Scrapy 的 调度 器 会 首先 执行 高 优先 级 的 请 求 ， 不 过 不 要 花费 太 多 时 间 来 
考虑 具体 的 哪个 请 求 应 该 被 首先 执行 。 很 可 能 在 你 的 应 用 中 ， 不 会 使 用 
超过 1 个 或 2 个 请 求 优先 级 。 此 外 还 需要 注意 的 是 ，URL 还 会 被 执行 去 重 
操作 ， 这 在 大 部 分 时 候 也 是 我 们 想 要 的 功能 。 不 过 如 果 我 们 需要 多 次 执 
行 同一 个 UREL 的 请 求 ， 可 以 设置 dont filter Request() 参数 为 true 





3.4.2 ”使 用 Crawlspider 实 现 双向 爬 取 


如 果 感 觉 上 面 的 双向 仆 取 有 些 元 长 ， 则 说 明 你 确实 发 现 了 关键 问 
A. Scrapy 尝 试 简 化 所 有 此 类 通用 情况 ， 以 使 其 编码 更 加 简单。 最 简单 
的 实现 同样 结果 的 方式 是 使 用 CrawlSpider ， 这 是 一 个 能 够 更 容易 地 
实现 这 种 爬 取 的 类 。 为 了 实现 它 ， 我 们 需要 使 用 genspider 命令 ， 并 设 
置 -t crawl 参数 ， 以 使 用 crawl IER BET. 





$ scrapy genspider -t crawl easy web 


Created spider ‘crawl’ using template ‘crawl’ in module: 


properties.spiders.easy 





现在 ， 文 件 properties/spiders/easy.py 包含 如 下 内 容 。 





class EasySpider(CrawlSpider): 
name = ‘easy' 
allowed domains = ['web' ] 
start_urls = ['http://www.web/' ] 


rules = ( 
Rule(LinkExtractor(allow=r'Items/'), 


callback='parse_item', follow=True), 


) 


def parse _item(self, response): 
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fh, MIERKE, BRAMER AK ACrawlSpider , m 
不 再 是 Spider . CrawlSpider 提供 了 一 个 使 用 rules 变量 实现 的 
parse() 方法 ， 这 与 我 们 之 前 例子 中 手工 实现 的 功能 一 致 。 


| 
你 可 能 会 感到 疑惑 ， 为 什么 我 首先 给 出 了 手工 实现 的 版 本 ， 而 不 是 直接 
给 出 捷径 。 这 是 因为 你 在 手工 实现 的 示例 中 ， 学 会 了 使 用 回调 的 yield 方式 


的 请 求 ， 这 是 一 个 非常 有 用 和 基础 的 技术 ， 我 们 将 会 在 后 续 的 章节 中 不 断 使 
用 它 ， 因 此 理解 该 内 容 非常 值得 。 
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现在 ， 我 们 要 把 start_urls 设置 成 第 一 个 索引 页 ， 并 且 用 我 们 之 
前 的 实现 替换 预定 义 的 parse_item() 方法 。 这 次 我 们 将 不 再 需要 实现 
任何 parse() 方法 。 我 们 将 预定 义 的 rules 变量 替换 为 两 条 规则 ， 即 水 
平 抓 取 和 垂直 抓 取 。 








rules = ( 

Rule(LinkExtractor(restrict_xpaths='//*[contains(@class,"next")]')), 

Rule(LinkExtractor(restrict_xpaths='//*[@itemprop="url"]'), 
callback='parse_item' ) 


) 


ee 


这 两 条 规则 使 用 的 是 和 我 们 之 前 手工 实现 的 示例 中 相同 的 XPath 表 
达 式 ， 不 过 这 里 没有 了 a 或 href 的 限制 。 顾 名 思 义 ，LinkExtractor 
正 是 专门 用 于 抽取 链接 的 ， 因 此 在 默认 情况 下 ， 它 们 会 去 查找 a (及 
area ) href 属性 。 你 可 以 通过 设置 LinkExtractor() 的 tags 和 
attrs 参数 来 进行 自 定 义 。 需 要 注意 的 是 ， 回 调 参数 目前 是 包含 回调 方 
法 名 称 的 字符 串 〈 比 如 "parse_item' ) ， 而 不 是 方法 引用 ， 如 
Request(self.parse_item) 。 最 后 ， 除 非 设 置 了 callback 5%, T 
则 Rule 将 跟踪 已 经 抽取 的 URL， 也 就 是 说 它 将 会 扫描 目标 页 面 以 获取 
额外 的 链接 并 跟踪 它们 。 如 果 设 置 了 callback ，Rule 将 不 会 跟踪 目标 
页 面 的 链接 。 如 果 你 希望 它 跟 踪 链 接 ， 应 当 在 callback 方法 中 使 
用 return 或 yield 返回 它们 ， 或 者 将 Rule() 的 follow 参数 设置 
为 true 。 当 你 的 房 源 页 既 包 含 Item 又 包含 其 他 有 用 的 导航 链接 时 ， 该 
功能 可 能 会 非常 有 用 。 








运行 该 肘 虫 ， 可 以 得 到 和 手工 实现 的 爬虫 相同 的 结 采 ， 不 过 现在 使 
用 的 是 一 个 更 加 简单 的 源 代码 。 





$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=96 


| | 
3.5 ”本 章 小 结 


本 章 可 能 是 大 家 开始 学 习 Scrapy 时 最 重要 的 一 章 。 你 刚刚 学 习 了 开 
EMG Hap HAS ATI: UR IM。 你 学 会 了 如 何 自 定 义 适合 需求 的 Item 
， 使 用 ItemLoader 、XPath 表 达 式 和 处 理 器 加 载 Item ， 以 及 如 何 对 
Request 使 用 yield 操作 。 我 们 使 用 Request 横向 到 达 不 同 的 索引 页 ， 
纵向 到 达 房 源 页 并 抽取 Item 。 最 后 ， 我 们 看 到 了 如 何 使 
用 CrawlSpider 和 Rule ， 以 很 少 的 代码 行 创 建 非常 强大 的 爬虫 。 如 果 
你 想 要 更 深入 地 理解 这 些 概 念 ， 请 尽 可 能 多 地 阅读 本 章 ， 当 然 ， 也 可 以 
在 你 开发 自己 的 爬虫 时 使 用 本 章 作 为 参考 。 





我 们 刚刚 从 网 站 中 得 到 了 一 些 信息 。 为 什么 它 这 么 重要 呢 ? 我 想 答 
案 会 在 下 一 章 中 变 得 明明 起 来 ， 在 下 一 章 中 ， 通 过 简单 的 几 页 内 容 ， 我 
们 将 会 开发 一 个 简单 的 手机 应 用 ， 并 使 用 Scrapy 填 充 其 中 的 数据 。 我 
想 ， 结 果 会 令 大 家 印象 深刻 。 





第 4 章 ” 从 Scrapy 到 移动 应 用 


我 能 够 听 到 人 们 的 尖 叫 声 ;“Appery.io 是 什么 ， 一 个 手机 应 用 的 专 
用 平台 ， 它 和 Scrapy 有 什么 关系 ? ”那么 ， 眼 见 为 实 吧 。 你 可 能 还 会 对 
几 年 前 在 Excel 电 子 表格 上 给 茶 个 人 《朋友 、 管 理 者 或 者 客户 ) 展示 数 
据 时 的 场景 印象 深刻 。 不 过 现 如 今 ， 除 非 你 的 听众 都 十 分 老练 ， 否 则 他 
们 的 期 望 很 可 能 会 有 所 不 同 。 在 接 下 来 的 几 页 里 ， 你 将 看 到 一 个 简单 的 
手机 应 用 ， 这 是 一 个 只 需 儿 次 单 击 束 能 够 创建 出 来 的 最 小 可 视 化 产品 ， 
其 目的 是 癌 利 益 相 关 者 传达 抽取 所 得 数据 的 力量 ， 并 回 到 生态 系统 中 ， 
以 源 网 站 网 络 流量 的 形式 展示 它 能 够 带 来 的 价值 。 














我 将 尽量 保持 简短 的 局 发 式 示例 ， 在 这 里 它们 将 展示 如 何 充 分 利用 
你 的 数据 。 只 有 当 你 有 一 个 具体 的 应 用 用 于 消费 数据 时 ， 才 可 以 安全 地 
略 过 本 音 。 本 章 将 会 癌 你 展示 如 何以 当下 最 流行 的 方式 一 一 手机 应 用 ， 
[IZA ARRAS PR BE o 





4.1 选择 手机 应 用 框 染 





借助 于 适当 的 工具 癌 手 机 应 用 提供 数据 将 是 非常 容易 的 事情 。 目 前 
有 许多 优秀 的 器 平台 手机 应 用 开发 框架 ， 如 PhoneGap、 使 用 
Appcelerator 云 服务 的 Appcelerator、jQuery Mobile 和 Sencha Touch. 


本 章 将 使 用 Appery.io， 因 为 它 可 以 让 我 们 使 用 PhoneGap 和 jQuery 
Mobile 快 速 创建 :OS、Android、Windows Phone 以 及 HTML5 手 机 应 用 。 


我 和 Scrapy 都 与 Appery.io 无 任何 利益 关联 。 我 会 残 励 你 独立 进行 调研 ， 

看 看 除了 本 章 中 提出 的 功能 外 ， 它 是 否 也 能 符合 你 的 需求 。 请 注意 这 是 
一 个 付费 服务 ， 你 可 以 有 14 天 的 试用 期 ， 不 过 在 我 看 来 ， 它 可 以 让 人 无 
需 动 脑 就 能 快速 开发 出 原型 ， 尤 其 是 对 于 那些 不 是 网 络 专家 的 人 来 说 ， 

为 此 付费 是 值得 的 。 我 选择 该 服务 的 主要 原因 是 它 既 能 提供 手机 应 用 ， 

也 能 提供 后 端 服务 ， 也 就 是 说 我 们 不 需要 再 去 配置 数据 库 、 编 写 REST 
API 或 为 服务 端 及 手机 应 用 使 用 其 他 一 些 语 言 。 你 将 看 到 ， 我 们 一 行 代 
码 都 不 用 去 编写 ! 我 们 将 会 使 用 它们 的 在 线 工具 ; 在 任何 时 候 ， 你 都 可 
以 下 载 该 应 用 ， 并 作为 PhoneGap 项 目 ， 使 用 PhoneGap 的 所 有 功能 。 














在 本 章 中 ， 你 需要 接 入 互联 网 连接 ， 以 便 使 用 Appery.io。 同 时 ， 还 
需要 注意 的 是 该 网 站 的 布局 可 能 在 未 来 会 有 所 变化 。 请 将 我 们 的 截屏 作 
为 参考 ， 而 不 要 在 友 现 该 网 站 外 观 不 同时 感到 惊讶 。 





4.2 ”创建 数据 库 和 集合 


第 一 步 是 通过 单 击 Appery.io 网 站 上 的 Sign-Up 按钮 并 选取 免费 方 
案 ， 来 注册 免费 的 Appery.io 方 案 。 你 需要 提供 用 户 名 、 邮 箱 地 址 以 及 密 
码 ， 然 后 就 会 创建 好 新 账户 了 。 等 待 几 秒 钟 后 ， 账 户 完 成 激活 。 然 后 就 
可 以 登录 到 Appery.io 的 仪表 各 了 。 现 在， 开始 准备 创建 新 的 数据 库 以 及 
集合 ， 如 图 4.1 所 示 。 
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图 4.1 使 用 Appery.io 创 建新 数据 库 及 集合 
为 了 完成 该 操作 ， 需 要 按照 如 下 步骤 执行 。 
1. 单 击 Databases 选项 卡 (1) 。 


2. 然后 单 击 绿色 的 Create new database (2) 按钮 。 将 新 数据 库 命 
名 为 scrapy (3) 。 


3. 现在 ， 单 击 Create 按钮 (4) 。 此 时 会 自动 打开 Scrapy 数 据 库 的 
仪表 盘 ， 在 这 里 ， 你 可 以 创建 新 的 集合 。 


在 Appery.io 的 术语 中 ， 一 个 数据 库 是 由 一 组 集合 组 成 的 。 大 致 来 
说 ， 一 个 应 用 使 用 一 个 单独 的 数据 库 〈 至 少 在 最 初时 是 这 样 ) ， 每 个 数 
据 库 中 包含 多 个 集合 ， 比 如 用 户 、 房 产 、 消 息 等 。Appery.io 默 认 已 经 提 
供 了 一 个 Users 集合 ， 其 中 包括 用 户 名 和 密码 (它们 有 很 多 内 置 功 





能 ) 。 图 4.2 所 示 为 创建 集合 的 过 程 。 
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This collection doesn't have any data. 
Click +Col to create a new column, and then +Row to add a sample data (row) 


图 4.2 ”使 用 Appery.io 创 建新 数据 库 及 集合 


现在 ， 我 们 添加 一 个 用 户 ， 用 户 名 为 root， 密 码 为 pass。 当 然 ， 你 
也 可 以 选择 更 加 安全 的 用 户 名 和 密码 。 为 实现 该 目的 ， 请 单 击 侧 边 栏 的 
Users $A (1) ， 然 后 单 击 +Row 添加 用 户 / 行 (2〉。 在 出 现 的 两 个 字 
段 中 填 入 用 户 名 和 密码 (3) 和 (4) 。 


我 们 还 需要 创建 一 个 新 的 集合 ， 用 于 存储 Scrapy 抓 取 到 的 房产 数 
据 ， 并 将 该 集合 命名 为 properties。 通 过 单 击 绿色 的 Create new collection 
按钮 (5) ， 将 其 命名 为 properties (6) ， 然 后 单 击 Add 按钮 


(7) ， 就 可 以 创建 新 的 集合 了 。 现 在 ， 我 们 还 必须 对 该 集合 进行 一 些 
定制 化 处 理 。 单 击 +Col 添加 数据 库 列 〈8) 。 每 个 数据 库 列 都 有 其 类 
型 ， 用 于 对 值 进行 校 验 。 除 了 价格 是 数值 类 型 外 ， 大 部 分 字段 都 是 简单 
的 字符 串 类 型 。 我 们 将 通过 单 击 +Col 添加 几 个 列 〈8) ， 并 填充 列 名 
(9) ， 如 果 不 是 字符 串 类 型 的 话 ， 还 需要 选择 类 型 (10) ， 然 后 单 击 
Create column 按钮 (11) 。 重 复 该 过 程 5 次 ， 创 建 表 4.1 中 展示 的 列 。 


表 4.1 


C fe fe em aa | 


列 





在 集合 创建 的 最 后 ， 你 应 该 已 经 将 所 需 的 所 有 列 都 创建 完成 了 ， 惑 
像 表 4.1 中 所 示 的 那样 。 现 在 已 经 准备 好 从 Scrapy 中 导入 一 些 数据 了 。 


4.3 ”使 用 Scrapy 填 充 数 据 库 


首先 ， 我 们 需要 一 个 API key。 我 们 可 以 在 Settings 选项 卡 (1) 中 
找到 它 。 复 制 该 值 (2) ， 然 后 单 击 Collections 选项 卡 (3) 回 到 房产 集 
合 中 ， 过 程 如 图 4.3 所 示 。 
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API key is always used when making requests to REST API. It is added as X-Appery-Database-Id header. 


API key name 2 Create API key 
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图 4.3 ”使 用 Appery.io 创 建新 数据 库 及 集合 











非常 好 ! 现在 需要 修改 在 第 3 章 中 创建 的 应 用 ， 将 数据 导入 到 
Appery.io 中 。 我 们 先 将 项 目 以 及 名 为 easy 的 爬虫 Ceasy.py ) 复制 过 
来 ， 并 将 该 爬虫 重 命名 为 tomobile (tomobile.py ) 。 同 时 ， 编 辑 文 
件 ， 将 其 名 称 设 为 tomobile 。 





$ 1s 


properties scrapy.cfg 


$ cat properties/spiders/tomobile. py 


class ToMobileSpider (CrawlSpider): 


name = 'tomobile' 


allowed_domains = ["scrapybook.s3.amazonaws.com" | 


# Start on the first index page 


start_urls = ( 


"http: //scrapybook.s3.amazonaws.com/properties/ ' 


'index_00000.html', 


本 章 代 码 可 以 在 GitHub 的 che4 目录 下 找到 。 











你 可 能 已 经 注意 到 的 一 个 问题 是 ， 这 里 并 没有 使 用 之 前 章节 中 用 过 
的 Web 服 务 器 Chttp://web:9312) ， 而 是 使 用 了 该 站 点 的 一 个 公开 
可 用 的 副本 ， 这 是 我 存放 在 http://scrapybook.s3.amazonaws .com 
上 的 副本 。 之 所 以 在 本 章 中 使 用 这 种 方式 ， 是 因为 这 样 可 以 使 图 片 和 
URL 都 能 够 公开 可 用 ， 此 时 就 可 以 非常 轻松 地 分 享 应 用 了 。 








我 们 将 使 用 Appery.io 的 管道 来 插入 数据 。Scrapy 管 道 通常 是 一 
小 的 Python 类 ， 拥 有 后 置 处 理 、 清 理 及 存储 Scrapy Item 的 功能 。 第 8 章 将 
会 更 深入 地 介绍 这 部 分 的 内 容 。 就 目前 来 说 ， 你 可 以 使 
用 easy_install 或 pip 安装 它 ， 不 过 如 果 你 使 用 的 是 我 们 的 Vagrant 
dev 机 器 ， 则 无 需 进行 任何 操作 ， 因 为 我 们 已 经 将 其 安装 好 了 。 








$ sudo easy_install -U scrapyapperyio 


$ sudo pip install --upgrade scrapyapperyio 





此 时 ， 你 需要 对 Scrapy 的 主 设置 文件 进行 一 些小 修改 ， 将 之 前 复制 
的 API key 添 加 进来 。 第 7 章 将 会 更 加 深入 地 讨论 设置 。 现 在 ， 我 们 所 需 
要 做 的 就 是 将 如 下 行 添加 到 properties/settings .py 文件 中 。 


ITEM_PIPELINES = {'scrapyapperyio.ApperyIoPipeline': 300} 


APPERYIO_ DB_ID "<<Your API KEY here>>' 
APPERYIO_USERNAME = ‘root’ 
APPERYIO_ PASSWORD = 'pass' 


APPERYIO_COLLECTION_NAME = ‘properties’ 





不 要 瑟 记 将 APPERYIO_DB_ID 蔡 换 为 你 的 API key。 此 外 ， 还 需要 
确保 设置 中 的 用 户 名 和 密码 ， 要 和 你 在 Appery.io 中 创建 数据 库 用 户 时 使 
用 的 相同 。 要 想 向 Appery.io 的 数据 库 中 填充 数据 ， 请 像 平常 那样 启动 


scrapy crawl. 








$ scrapy crawl tomobile -s CLOSESPIDER_ITEMCOUNT=90 


INFO: Scrapy 1.0.3 started (bot: properties) 


INFO: Enabled item pipelines: ApperyIoPipeline 


INFO: Spider opened 


DEBUG: Crawled (200) <GET https://api.appery.io/rest/1/db/login?username= 


root&password=pass> 


DEBUG: Crawled (20@) <POST https://api.appery.io/rest/1/db/collections/ 


properties> 


INFO: Dumping Scrapy stats: 


{'downloader/response_count': 215, 


"item_scraped_count': 105, 


INFO: Spider closed (closespider_itemcount) 





这 次 的 输出 会 有 些 不 同 。 可 以 看 到 在 最 开始 的 几 行 中 ， 有 一 行 是 用 








于 启用 ApperyIoPipeline 这 个 Item 管 道 的 ， 不 过 最 明显 的 是 ， 你 会 发 

现 尽 管 抓 取 了 100 个 Item， 但 是 却 有 200 次 请 求 /响应 。 这 是 因为 Appery.io 
的 管道 对 每 个 Item 都 执行 了 一 个 到 Appery.io 服 务 端的 额外 请 求 ， 以 便 写 

入 每 一 个 Item。 这 些 带 有 api.appery .io 这 个 URL 的 请 求 同 样 也 会 在 

日 志 中 出 现 。 


当 回 到 Appery.io 时 ， 可 以 看 到 在 properties 集合 (1) 中 已 经 填充 好 
了 数据 〈2) ， 如 图 4.4 所 示 。 
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图 4.4 ”使 用 数据 填充 properties 集 合 


44 创建 手机 应 用 


创建 一 个 新 的 手机 应 用 非常 简单 。 我 们 只 需 单 击 Apps 选项 卡 
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description url 
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(1) ， 然 后 单 击 绿色 的 Create new app 按钮 (2) 。 填 写 应 用 名 称 
为 properties (3) ， 然 后 单 击 Create 按钮 进行 创建 就 可 以 了 ， 该 过 程 


如 图 4.5 所 示 。 
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图 4.5 创建 新 手机 应 用 及 数据 库 集合 





4.4.1 创建 数据 库 访 问 服务 


创建 新 应 用 时 的 选项 数量 可 能 会 有 些 多 。 使 用 Appery.io 的 应 用 编辑 
器 ， 可 以 写 出 复杂 的 应 用 ， 不 过 我 们 将 尽 可 能 保持 事情 简单 。 我 们 最 初 
需要 的 就 是 创建 一 个 服务 ， 能 够 让 我 们 从 应 用 中 访问 Scrapy 数 据 库 。 为 
了 达到 这 一 目的 ， 需 要 单 击 长 方形 的 绿色 按钮 CREATE NEW (5) ， 
然后 选择 Database Services (6) 。 这 时 会 弹出 一 个 新 的 对 话 框 ， 让 我 
们 选择 想 要 连接 的 数据 库 。 选 择 scrapy 数据 库 (7) 。 这 个 菜单 中 的 大 
部 分 选项 都 不 会 用 到 ， 现 在 只 需要 单 击 展开 properties 区 域 (8) ， 然 后 
选择 List (9)〉。 在 后 人 台 ， 它 会 为 我 们 编写 代码 ， 使 得 我 们 使 用 Scrapy 扑 
取 的 数据 可 以 在 网 络 上 使 用 。 最 后 ， 单 击 Import selected services 按钮 
完成 (10) 。 








4.4.2 ”创建 用 户 界面 


下 面 将 要 开始 创建 应 用 所 有 的 可 视 化 元 素 了 ， 这 将 会 使 用 编辑 器 中 
的 DESIGN 选项 卡 来 实现 ， 如 图 4.6 所 示 。 
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图 4.6 ”创建 用 户 界 面 











从 页 面 左 侧 的 树 中 ， 展 开 Pages 文件 夹 (1) ， 然 后 单 击 startScreen 
(2) 。UI 编 辑 器 将 会 打开 该 页 面 ， 我 们 可 以 在 其 中 添加 一 些 控件 。 下 
面 使 用 编辑 器 编辑 标题 ， 以 便 对 其 更 加 熟悉 。 单 击 头 部 标题 (3) ， 然 
后 会 发 现 屏 幕 右 侧 的 属性 区 域 会 变 为 显示 标题 的 属性 ， 其 中 包含 一 
个 Text 属性 ， 将 该 属性 值 修改 为 Scrapy App ， 屏 幕 中 间 的 标题 也 会 相 





应 地 更 新 。 


然后 ， 需 要 添加 一 个 网 格 组 件 ， 从 左 侧面 板 5) A Grid 控件 
即 可 实现 。 该 控件 有 两 行 ， 而 根据 我 们 的 需求 ， 只 需要 一 行 即 可 。 选 择 
刚刚 于 、 加 的 网 格 。 当 手机 视图 顶部 的 缩 略 图 区 域 《6) 变 灰 时 ， 就 可 以 
知道 该 网 格 已 经 被 选取 了 。 如 果 没 有 被 选取 ， 单 击 该 网 格 以 便 选 中 。 然 
后 右 侧 的 属性 栏 会 更 新 为 网 格 的 属性 。 这 里 只 需要 将 Rows 属 性 设置 为 
1， 然 后 单 击 Apply 即 可 (7) 和 (8) 。 现 在 ， 该 网 格 就 会 被 更 新 为 只 有 
ia, des 














Ba, HEFL Sb REPEC BEE Ht AH as) Pe 
件 (9) , ATER a DUS ER C10) ， 最 后 在 链接 下 面 添加 标签 
(11) . 








就 布局 而 言 ， 此 时 已 经 足够 。 接 下 来 将 从 数据 库 中 向 用 户 界 面 输入 
数据 。 


4.4.3 ”将 数据 映射 到 用 户 界 面 


目前 为 止 ， 我 们 花费 了 大 量 时 间 在 DESIGN 选项 卡 中 ， 以 创建 应 用 
的 可 视 化 效果 。 为 了 将 可 用 的 数据 链接 到 这 些 控件 中 ， 需 要 切换 
到 DATA 选项 卡 (1) ， 如 图 4.7 所 示 。 
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图 4.7 ”将 数据 映射 到 用 户 界 面 


选择 Service (2) 作为 数据 源 类 型 。 由 于 前 面 创建 的 服务 是 唯一 可 
用 的 服务 ， 因 此 它 会 被 自动 选取 。 然 后 可 以 继续 单 击 Add 按钮 (3) ， 
此 时 服务 属性 将 会 在 其 下 方 列 出 。 只 要 按 下 了 Add 按钮 ， 就 会 看 到 像 
Before send 以 及 Success 这 样 的 事件 。 我 们 可 以 通过 单 击 Success 后 面 
的 Mapping 按钮 ， 定 制服 务 成 功 调用 后 要 做 的 事情 。 


此 时 会 打开 Mapping action editor ， 我 们 可 以 在 这 里 完成 连 线 。 该 
编辑 器 有 两 侧 。 左 侧 是 服务 啊 应 中 可 用 的 字段 ， 而 在 右 侧 中 可 以 看 到 前 
面 步 又 中 添加 的 UI 控件 的 属性 。 两 人 出 都 有 一 个 Expand all 链接 ， 单 击 该 
链接 可 以 看 到 所 有 可 用 的 数据 和 控件 。 接 下 来 ， 需 要 按照 表 4.2 中 给 出 
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444 数据 库 字 段 与 用 户 界 面 控件 间 映 射 












































表 4.2 中 项 的 数量 可 能 会 与 你 的 情况 有 些许 差别 ， 不 过 由 于 每 种 控 
件 都 只 有 一 个 ， 因 此 出 错 的 可 能 性 非常 小 。 通 过 设置 这 些 映射 ， 我 们 通 
知 Appery.io 在 后 台 编 写 所 有 代码 ， 以 便 在 数据 库 查 询 成 功 时 使 用 数据 库 
中 的 值 加 载 控 件 。 下 面 ， 可 以 单 击 Save and return 按钮 (6) 继续 。 














此 时 又 回 到 了 DATA 选项 卡 ， 如 图 4.7 所 示 。 由 于 还 需要 返回 到 UI 
编辑 器 当中 ， 因 此 需要 单 击 DESIGN 选项 卡 (7) 。 在 屏幕 下 方 ， 你 会 
发 现 一 个 EVENTS 区 域 (8) ， 尽 管 该 区 域 一 直 存 在 ， 但 它 刚 刚才 被 展 





开 。 在 EVENTS 区 域 中 ， 我 们 让 Appery.io 做 一 些 事 情 ， 作 为 对 UI 事件 
的 响应。 这 是 我 们 需要 执行 的 最 后 一 个 步 又 。 它 会 让 应 用 在 UI 加 载 完 成 
后 立即 调用 服务 取 回 数据 。 为 了 实现 该 功能 ， 我 们 需要 选择 startScreen 
作为 组 件 ， 并 将 事件 保持 为 默认 的 Load 选项 。 然 后 选择 Invoke service 
作为 action ， 保 持 Datasource 为 默认 的 restservicel 选项 (9) 。 最 后 ， 
单 击 Save (10) ， 这 就 是 我 们 为 创建 这 个 手机 应 用 所 做 的 所 有 事情 

Te 


4.4.5 测试 、 分 享 及 导出 你 的 手机 应 用 


现在 ， 可 以 测试 这 个 应 用 了 。 我 们 所 需要 做 的 事情 就 是 单 击 UI 生 成 
器 顶部 的 TEST 按钮 (1) ， 如 图 4.8 所 示 。 
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图 4.8 itr err bids PAF LA 


手机 应 用 将 会 在 浏览 器 中 运行 。 这 些 链接 都 是 有 效 的 (2) ， 可 以 
浏览 。 可 以 预览 不 同 的 手机 屏幕 方案 以 及 设备 方向 ， 也 可 以 单 击 View 
on Phone 按钮 ， 此 时 会 显示 一 个 二 维 码 ， 你 可 以 使 用 移动 设备 扫描 该 

二 维 码 ， 并 预览 该 应 用 。 你 只 需 分 享 其 生成 的 链接 ， 其 他 人 也 可 以 在 他 
们 的 浏览 器 中 尝试 该 应 用 。 


只 需 单 击 几 下 ， 我 们 就 可 以 将 Scrapy 抓 取 的 数据 组 织 起 来 ， 并 展示 
在 手机 应 用 中 。 如 果 你 需要 更 进一步 地 定制 该 应 用 ， 可 以 参考 Appery.io 
提供 的 教程 ， 其 网 址 为 http://devcenter.appery.io/tutorials/ 


。 当 一 切 准 备 就 绪 时 ， 就 可 以 通过 EXPORT 按钮 导出 该 应 用 了 ， 
Appery.io 提 供 了 非常 丰富 的 导出 选项 ， 如 图 4.9 所 示 。 
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图 4.9 ”你 可 以 将 应 用 导出 到 大 部 分 主流 移动 平台 


你 可 以 导出 项 目 文件 ， 在 自己 喜欢 的 IDE 中 进一步 开 有 ; 也 可 以 获 
得 二 进 制 文件 ， 发 布 到 各 个 平 合 的 手机 市 场 当中 。 


45 ”本章 小 结 


使 用 Scrapy 和 Appery.io 这 两 个 工具 ， 我 们 拥有 了 一 个 可 以 抓 取 网 站 
并 且 能 够 将 数据 插入 到 数据 库 中 的 系统 。 此 外 ， 我 们 还 得 到 了 RESTful 
API， 以 及 一 个 简单 的 可 以 用 于 Android 和 iOS 的 手机 应 用 。 对 于 高 级 特 
性 和 进一步 开发 ， 你 可 以 更 加 深入 到 这 些 平台 中 ， 将 其 中 部 分 开发 工作 
外 包 给 领域 专家 ， 或 是 研究 蔡 代 方案 。 现 在 ， 你 只 需要 最 少 的 编码 ， 职 
能 够 拥有 一 个 可 以 演示 应 用 理念 的 最 小 产品 。 











你 会 注意 到 ， 在 如 此 短 的 开发 时 间 中 ， 我 们 的 应 用 看 起 来 还 不 错 。 


这 是 因为 它 使 用 了 真实 的 数据 ， 而 不 是 占 位 符 ， 并 且 所 有 链接 都 是 可 用 
且 有 意义 的 。 我 们 成 功 创建 了 一 个 草 重 其 生态 〈 源 网 站 ) 的 最 小 可 用 产 
品 ， 并 以 流量 的 形式 将 价值 回馈 给 源 网 站 。 


现在 ， 我 们 可 以 开始 学 习 如 何 使 用 Scrapy 扑 虫 在 更 加 复杂 的 场景 下 
抽取 数据 了 。 
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第 3 章 关 注 的 是 如 何 从 页 面 中 抽取 信息 ， 并 将 其 存储 到 Items 中 。 
我 们 所 学 习 的 内 容 已 经 缆 盖 了 大 部 分 常见 的 Scrapy 用 例 ， 足 够 你 创建 并 
运行 候 虫 了 。 而 在 本 章 中 ， 我 们 将 看 到 更 多 特殊 的 例子 ， 以 便 让 你 更 加 
就 悉 Scrapy 的 两 个 最 重要 的 类 一 一 Request 和 Response ， 即 我 们 在 第 3 
BP $e SI AUR? IM 抓 取 模 型 中 的 两 个 R。 





5.1 需要 登录 的 爬虫 


通常 情况 下 ， 你 会 发 现 自己 想 要 抽取 数据 的 网 站 存在 登录 机 制 。 大 

部 分 情况 下 ， 网 站 会 要 求 你 提供 用 户 名 和 密码 用 于 登录 。 你 可 以 从 
http://web:9312/dynamic (从 dev 机 器 访问 ) 
或 http://localhost:9312/ dynamic 〈 从 宿主 机 浏览 器 访问 ) 找到 
我 们 要 使 用 的 例子 。 如 果 使 用 "user" 作 为 用 户 名 ，"pass" 作 为 密码 的 话 ， 
你 就 可 以 访问 到 包含 3 个 房产 页 面 链接 的 网 页 。 不 过 现在 的 问题 是 ， 要 
如 何 使 用 Scrapy 执 行 相同 的 操作 ? 











让 我 们 使 用 Google Chrome 浏 览 器 的 开发 者 工具 来 尝试 理解 登录 的 
工作 过 程 ( 见 图 5.1) 。 首 先 ， 打 开 Network 选项 卡 (1) 。 然 后 ， 填 写 
用 户 名 和 密码 ， 并 单 击 Login 2) 。 如 果 用 户 名 和 密码 正确 ， 你 将 会 
看 到 包含 3 个 链接 的 页 面 。 如 果 用 户 名 和 密码 不 匹配 ， 将 会 看 到 一 个 错 
误 页 。 
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图 5.1 登录 网 站 时 的 请 求 和 响应 


当 按 下 Login 按钮 时 ， 会 在 Google Chrome 浏 览 器 开发 者 工具 的 
Network 选项 卡 中 看 到 一 个 包含 Request Method: POST 的 请 求 ， 其 目 
的 地 址 为 http://localhost:9312/dynamic/login 。 


Q 
前 面 章节 中 的 请 求 都 是 GET 类 型 的 请 求 ， 一 般 用 于 获取 不 会 改变 的 数 


据 ， 比 如 简单 的 网 页 、 图 像 等 。 而 POST 类 型 的 请 求 通常 用 于 获取 那些 依赖 
于 传送 给 服务 器 内 容 的 数据 ， 比 如 本 例 中 的 用 户 名 和 密码 。 























当 你 单 击 该 请 求 时 (3) ， 可 以 看 到 发 送 给 服务 端的 数据 ， 包 括 
Form Data (4) ， 其 中 包含 了 我 们 输入 的 用 户 名 和 密码 。 这 些 数据 都 





是 以 文本 形式 传输 给 服务 端的 。Chrome 浏 览 器 只 是 将 其 组 织 起 来 ， 癌 
我 们 更 好 地 显示 这 些 数据 。 服 务 端的 啊 应 是 302 Found (5) ， 使 我 们 
跳 转 到 一 个 新 的 页 面 : /dynamic/gated 。 该 页 面具 有 在 登录 成 功 后 才 
会 出 现 。 如 有 果 答 试 直 接 访问 
http://localhost:9312/dynamic/gated ， 而 不 输入 正确 的 用 户 名 
和 密码 的 话 ， 服 务 端 会 发 现 你 在 作 粗 ， 并 跳 转 到 错误 页 ， 其 地 址 
是 http:// localhost:9312/dynamic/error 。 服 务 端 是 如 何 知 道 你 
和 你 的 密码 的 呢 ? 如 果 你 单 击 开发 者 工具 左 侧 的 gated (6) ， 就 会 发 现 
在 Request Headers 区 域 下 面 (7) 设置 了 一 个 Cookie 值 (8) 。 


Q 
HTTP Cookie 是 一 些 服 务 端 发 送 给 浏览 器 的 文本 或 数值 ， 通 常 都 很 短 。 
相应 地 ， 浏 览 器 会 在 随后 的 每 个 请 求 中 将 其 返回 给 服务 端 ， 用 于 标识 你 、 用 


户 和 会 话 。 这 样 你 就 可 以 执行 需要 服务 端 状态 信息 的 复杂 操作 了 ， 比 如 购物 
车 里 的 商品 或 你 的 用 户 名 和 密码 。 
































总 之 ， 即 使 是 一 个 单一 的 操作 ， 比 如 登录 ， 也 可 能 涉及 包括 POST 
请 求 和 HTTP 跳 转 的 多 次 服务 端 往返 。Scrapy 能 够 自动 处 理 大 部 分 操 
作 ， 而 我 们 需要 编写 的 代码 也 很 简单 。 


我 们 从 第 3 章 中 名 为 easy 的 爬虫 开始 ， 创 建 一 个 新 的 谎 虫 ， 命 名 
为 login ， 保 留 原 有 文件 ， 并 修改 爬虫 中 的 name BME COUR ATA) : 





class LoginSpider(CrawlSpider): 
name = 'login' 


本 章 代码 在 GitHub 的 ch85 目录 下 ， 其 中 本 示例 为 che5/properties 。 











A E A A 
的 POST 请 求 ， 发 送 登 录 的 初始 请 求 。 这 将 通过 Scrapy 的 FormRequest 
类 实现 该 功能 。 该 类 与 第 3 章 中 使 用 的 Request 类 相似 ， 不 过 该 类 额外 
包含 一 个 formdata 参数 ， 可 以 使 用 该 参数 传输 表单 数据 (user 和 
pass ) 。 要 想 使 用 该 类 ， 首 先 需 要 引入 如 下 模块 。 


from scrapy.http import FormRequest 





然后 ， 将 start_urls 语句 替换 为 start_requests() 方法 。 这 样 
做 是 因为 在 本 例 中 ， 我 们 需 oe ete 台 ， 而 不 仅仅 
是 几 个 URL。 更 确切 地 说 就 是 ， 我 们 从 该 函数 中 创建 并 返 


个 FormRequest 。 





# Start with a login request 
def start_requests(self): 
return [ 
FormRequest( 
"http: //web:9312/dynamic/login", 
formdata={"user": "user", "pass": "pass"} 


)] 


| 


虽然 听 起 来 不 可 思议 ， 但 是 CrawlSpider (LoginSpider 的 基 
X) 默认 的 parse() 方法 确实 处 理 了 Response ， 并 且 仍 然 能 够 使 用 第 
3 章 中 的 Rule 和 LinkExtractor 。 我 们 只 编写 了 非常 少 的 额外 代码 ， 
这 是 因为 Scrapy 为 我 们 透明 处 理 了 Cookie， 并 日 一 旦 我 们 登录 成 功 ， 就 
会 在 后 续 的 请 求 中 传输 这 些 Cookie， 就 和 浏览 器 执行 的 方式 一 样 。 接 下 
来 可 以 像 平 常 一 样 ， 使 用 scrapy crwal 运行 。 





$ scrapy crawl login 


INFO: Scrapy 1.6.3 started (bot: properties) 


DEBUG: Redirecting (362) to <GET .../gated> from <POST .../login > 


DEBUG: Crawled (200) <GET .../data.php> 


DEBUG: Crawled (200) <GET .../property 666661.htm1> (referer: 


php) 


DEBUG: Scraped from <200 .../property_000001.html1> 


{'address': [u'Plaistow, London'], 


"date' : [datetime.datetime(2015, 11, 25, 12, 7, 27, 120119)], 


‘description’: [u'features'], 


‘image_urls': [u'http://web:9312/images/i02.jpg'], 


-.-/data. 


INFO: Closing spider (finished) 


INFO: Dumping Scrapy stats: 


"downloader/request_method_count/GET': 4, 


"downloader/request_method_count/POST': 1, 


"item_scraped_count': 3, 


| 


我 们 可 以 在 日 志 中 看 到 从 dynamic/login 到 dynamic/gated Mik 
转 ， 然 后 束 会 像 平 时 那样 抓 取 Item 了 。 在 统计 中 ， 可 以 看 到 1 个 POST 请 
求 和 4 个 GET 请 求 一 个 是 前 往 dynamic/gated 索引 页 ， 另 外 3 个 是 房 
产 页 面 ) 。 


Q 
本 例 中 ， 我 们 没有 保护 房产 页 面 本 身 ， 而 是 只 保护 了 到 这 些 页面 的 链 
接 。 无 论 哪 种 情况 ， 前 面 的 代码 都 是 适用 的 。 



































如 果 使 用 了 错误 的 用 户 名 和 和 密码， 将 会 跳 转 到 一 个 没有 任何 项 目的 
页 面 ， 并 且 此 时 疏 取 过 程 会 被 终止 ， 如 下 面 的 执行 情况 所 示 。 





$ scrapy crawl login 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Redirecting (302) to <GET .../dynamic/error > from 《POST .../ 


dynamic/login> 


DEBUG: Crawled (200) <GET .../dynamic/error> 


INFO: Spider closed (closespider_itemcount) 





这 是 一 个 简单 的 登录 示例 ， 用 于 演示 基本 的 登录 机 制 。 大 多 数 网 站 
都 会 拥有 一 些 更 加 复杂 的 机 制 ， 不 过 Scrapy 也 都 能 够 轻松 处 理 。 比 如 ， 








一 些 网 站 要 求 你 在 执行 POST 请 求 时 ， 将 表单 页 中 的 某 些 表单 变量 传输 
到 登录 页 ， 以 便 确 认 Cookie 是 局 用 的 ， 同 样 也 会 让 你 在 尝试 暴力 破解 成 
二 上 万 次 用 户 名 /密码 的 组 合 时 更 加 困难 。 图 5.2 所 示 即 为 此 种 情况 的 一 
个 示例 。 





Welcome x 


所 CŒ localhost:9312/dynamic/nonce 


Welcome, please login 


Login 


R O | Elements | Network Sources Timeline Profiles Resourct 


<html> 
> <head>...</head> 
v <body> 
<hl>Welcome, please login</h1> 
v <form method="post" action=""/dynamic/nonce-Llogin"> 
je < p>..</ p> 
> <p>..</p> 
> <p class="Submit''>..</p> 
input type="hidden” name=" nonce" valu 
</form> 
</body> 
</html> 





图 5.2 ”使 用 一 次 性 随机 数 的 一 个 更 加 高 级 的 登录 示例 的 请 求 和 啊 应 情况 


比如 ， 当 访问 http://localhost:9312/dynamic/nonce 时 ， 你 
会 看 到 一 个 看 起 来 一 样 的 页 面 ， 但 是 当 使 用 Chrome 浏 览 器 的 开发 者 工 
上 共 人 查看 时 ， 会 发 现 页 面 的 表单 中 有 一 个 叫 作 nonce 的 隐藏 字段 。 当 提交 
该 表单 时 (提交 到 http://localhost:9312/ dynamic/nonce-login 
) ， 除 非 你 既 传 输 了 正确 的 用 户 名 /密码 ， 又 提交 了 服务 端 在 你 访问 该 
登录 页 时 给 你 的 nonce 值 ， 否 则 登录 不 会 成 功 。 你 无 法 猜测 该 值 ， 因 为 
它 通 冲 是 随机 且 一 次 性 的 。 这 就 表示 要 想 成 功 登 录 ， 现 在 就 需要 请 求 两 
次 了 。 你 必须 先 访问 表单 页 ， 然 后 再 访问 登录 页 传输 数据 。 当 然 ， 
Scrapy 同 样 拥有 内 置 函 数 可 以 帮助 我 们 实现 这 一 目的 。 





我 们 创建 了 一 个 和 之 前 相似 的 NonceLoginspider WE. HA, 
在 start_requests() 中 ， 将 返回 一 个 简单 的 Request 《不 要 瑟 记 引入 


该 模块 ) 到 表单 页 面 中 ， 并 通过 设置 其 callback 属性 为 处 理 方法 
parse welcome() 手动 处 理 响 应 。 在 parse_welcome() 中 ， 使 用 了 
FormRequest 对 象 的 辅助 方法 from_response() ， 以 创建 从 原始 表单 
中 预 填充 所 有 字段 和 值 的 FormRequest 对 

象 。FormRequest.from_response() 粗略 模拟 了 一 次 在 页 面 的 第 一 个 
表单 上 的 提交 单 击 ， 此 时 所 有 字段 留 空 。 





花费 一 些 时 间 让 自己 熟悉 from_response() 的 文档 是 值得 的 。 它 有 很 
多 非常 有 用 的 功能 ， 如 formname 和 formnumber 可 以 帮助 你 在 拥有 多 个 表 
单 的 页 面 上 选择 其 中 茶 个 表单 。 




































































该 方法 对 于 我 们 来 说 非常 有 用 ， 因 为 它 能 够 宣 不 费力 地 原样 包含 表 
单 中 的 所 有 隐藏 字段 。 我 们 所 需要 做 的 就 是 使 用 formdata 参数 填 
充 user 和 pass 字段 以 及 返回 FormRequest 。 下 面 是 其 相关 代码 。 





# Start on the welcome page 
def start_requests(self): 
return [ 
Request ( 
"http: //web:9312/dynamic/nonce", 
callback=self.parse welcome) 


] 


# Post welcome page's first form with the given user/pass 
def parse _welcome(self, response): 
return FormRequest.from_response( 
response, 
formdata={"user": "user", "pass": "pass"} 


) 


我 们 可 以 像 平时 一 样 运行 仆 虫 。 





$ scrapy crawl noncelogin 


INFO: Scrapy 1.6.3 started (bot: properties) 


DEBUG: Crawled (266) <GET .../dynamic/nonce> 


DEBUG: Redirecting (302) to <GET .../dynamic/gated > from <POST .../ 


dynamic/login-nonce> 


DEBUG: Crawled (200) <GET .../dynamic/gated> 


INFO: Dumping Scrapy stats: 


"downloader/request_method_count/GET': 5, 


"downloader/request_method_count/POST': 1, 


"item_scraped_count': 3, 


a ëO 


可 以 看 到 ， 第 一 个 GET 请 求 前 往 /dynamic/nonce 页 面 ， 然 后 是 
POST 请 求 ， 跳 转 到 /dynamic/nonce-login 页 面 ， 之 后 像 前 面 的 例子 
一 样 跳 转 到 /dynamic/gated 页 面 。 关 于 登录 的 讨论 就 到 这 里 。 该 示例 
使 用 两 个 步骤 完成 登录 。 只 要 你 有 足够 的 耐心 ， 就 可 以 形成 任意 长 链 ， 
来 执行 几乎 所 有 的 登录 操作 。 


5.2 ”使 用 JSON API 和 AJAX 页 面 的 疏 虫 





有 时 ， 你 会 发 现 自己 在 页 面 寻找 的 数据 无 法 从 HTML 页 面 中 找到 。 
比如 ， 当 访问 http://1localhost:9312/static/ 时 ( 见 图 5.3) ， 在 
页 面 任 意 位 置 右键 单 击 inspect element (1,2) ， 可 以 看 到 其 中 包含 所 
有 常见 HTML 元 素 的 DOM 树 。 但 是 ， 当 你 使 用 scrapy shell 请 求 ， 或 
是 在 Chrome 浏 览 右 中 右键 单 击 View Page Source (3,4) 时 ， 则 会 发 现 
该 页 面 的 HTML 代 码 中 并 不 包含 天 于 房产 的 任何 信息 。 那 么 ， 这 些 数 据 
是 从 哪里 来 的 呢 ? 
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图 5.3 ”动态 加 载 JSON 对 象 时 的 页 面 请 求 与 响应 


与 平常 一 样 ， 遇 到 这 类 例子 时 ， 下 一 步 操作 应 当 是 打开 Chrome 浏 
览 器 开发 者 工具 的 Network 选项 卡 ， 来 看 看 发 生 了 什么 。 在 左 侧 的 列表 
中 ， 可 以 看 到 加 载 本 页 面 时 Chrome 执 行 的 请 求 。 在 这 个 简单 的 页 面 
中 ， 只 有 3 个 请 求 ，static/ 是 刚才 已 经 检查 过 的 请 求 ，jquery.min.js 用 
于 获取 一 个 流行 的 Javascript 框 架 的 代码 ; 而 apijson 看 起 来 会 让 我 们 产 
生 兴 趣 。 当 单 击 该 请 求 6) ， 并 单 击 右 侧 的 Preview 选项 卡 〈7) 时 ， 
就 会 发 现 这 里 面包 含 了 我 们 正在 寻找 的 数据 。 实 际 
上 ,http://localhost:9312/properties/api.json 包含 了 房产 的 
ID 和 名 称 〈8) ， 如 下 所 示 。 


"title": "better set unique family well" 


}s 
ste de f 

"id": 29, 

"title": "better portered mile" 
}] 





这 是 一 个 非常 简单 的 JSON API 的 示例 。 更 复杂 的 API 可 能 需要 你 登 
录 ， 使 用 POST 请 求 ， 或 返回 更 有 趣 的 数据 结构 。 无 论 在 哪 种 情况 下 ， 
JSON 都 是 最 简单 的 解析 格式 之 一 ， 因 为 你 不 需要 编写 任何 XPath 表达 式 
就 可 以 从 中 抽取 出 数据 。 


Python 提供 了 一 个 非常 好 的 JSON 解 析 库 。 当 我 们 执行 Import 
json 时 ， 就 可 以 使 用 json.1loads(response.body) 解析 JSON， 将 其 
转换 为 由 Python 原 语 、 列 表 和 字典 组 成 的 等 效 Python 对 象 。 


我 们 将 第 3 章 的 manual .py 拷贝 过 来 ， 用 于 实现 该 功能 。 在 本 例 
中 ， 这 是 最 佳 的 起 始 选项 ， 因 为 我 们 需要 通过 在 JSON 对 象 中 找到 的 
ID， 手 动 创建 房产 URL 以 及 Request 对 象 。 我 们 将 该 文件 重 命名 
为 api.py ， 并 将 聆 虫 类 重 命名 为 ApiSspider ，name 属性 修改 为 api 。 
新 的 start_urls 将 会 是 JSON API 的 URL， 如 下 所 示 。 





start_urls = 
"http: //web:9312/properties/api.json', 


) 








如 采 你 想 执行 POST 请 求 ， 或 是 更 复杂 的 操作 ， 可 以 使 用 前 一 节 中 
介绍 的 start_requests() 方法 。 此 时 ，Scrapy 将 会 打开 该 URL， 并 调 
用 包含 以 Response 为 参数 的 parse( ) 方法 。 可 以 通过 import json, 
使 用 如 下 代码 解析 JSON 对 象 。 


def parse(self, response): 
base_url = "http://web:9312/properties/" 
js = json.loads(response. body) 
for item in js: 
id = item["id"] 
url = base_url + "property_%e6d.html" % id 


yield Request(url, callback=self.parse_item) 





前 面 的 代码 使 用 了 json.loads(response.body) , Response 
这 个 JSON 对 象 解 析 为 Python 列表 ， 然 后 迭代 该 列表 。 对 于 列表 中 的 每 
一 项 ， 我 们 将 URL 的 3 个 部 分 (base_url 、property _%e6d 以 
及 .html ) 组 合 到 一 起 。base_url 是 在 前 面 定 义 的 URL 前 级 。%86d 是 
Python 语法 中 非常 有 用 的 一 部 分 ， 它 可 以 让 我 们 结合 Python 变量 创建 新 
的 字符 串 。 在 本 例 中 ，%86d 将 会 被 变量 id 的 值 蔡 换 《本 行 结尾 处 % 后 
面 的 变量 ) 。id 将 会 被 视 为 数字 (hd 表示 视 为 数字 ) ， 并 且 如 果 不 满 6 
位 ， 则 会 在 前 面 加 上 0， 扩 展 成 6 位 字符 。 比 如 ，id 值 为 5，%e6d 将 会 
被 蔡 换 为 000005， 而 如 果 id 为 34322，%86d 则 会 被 替换 为 034322。 最 
终结 果 正 是 我 们 房产 页 面 的 有 效 URL。 我 们 使 用 该 URL 形 成 一 个 新 的 
Request 对 象 ， 并 像 第 3 章 一 样 使 用 yield 。 然 后 可 以 像 平 时 那样 使 
用 scrapy crawl 运行 该 示例 。 


| 





$ scrapy crawl api 


INFO: Scrapy 1.0.3 started (bot: properties) 


DEBUG: Crawled (266) <GET ...properties/api.json> 


DEBUG: Crawled (200) <GET .../property_900029.htm1> 


INFO: Closing spider (finished) 


INFO: Dumping Scrapy stats: 


"downloader/request_count': 31, ... 


"item_scraped_count': 30, 





你 可 能 会 注意 到 结尾 处 的 状态 是 31 个 请 求 一 一 每 个 Item 一 个 请 求 ， 
以 及 最 初 的 api .json 的 请 求 。 


5.2.1 在 啊 应 间 传 参 


很 多 情况 下 ， 在 JSON API 中 会 有 感 兴趣 的 信息 ， 你 可 能 想 要 将 它 
们 存储 到 Item 中 。 在 我 们 的 示例 中 ， 为 了 演示 这 种 情况 ，JSON APIS 
在 给 定 房产 信息 的 标题 前 面 加 上 "better"。 比 如 ， 房 产 标题 是 "Covent 
Garden"，API 就 会 将 标题 写 为 "Better Covent Garden"。 假 设 我 们 想 要 将 
这 些 "better" 开 头 的 标题 存储 到 Items 中 ， 要 如 何 将 信息 从 parse() 方法 
传递 到 parse_item() 方法 呢 ? 





不 要 感到 惊讶 ， 通 过 在 parse() 生成 的 Request 中 设置 一 些 东 西 ， 


就 能 实现 该 功能 。 之 后 ， 可 以 从 parse_item() 接收 到 的 Response 中 
取得 这 些 信 息 。Request 有 一 个 名 为 meta 的 字典 ， 能 够 直接 访问 
Response 。 比 如 在 我 们 的 例子 中 ， 可 以 在 该 字典 中 设置 标题 值 ， 以 存 
储 来 自 JSON 对 象 的 标题 。 


title = item["title"] 
yield Request(url, meta={"title": title},callback=self.parse item) 





fEparse_item() 内 部 ， 可 以 使 用 该 值 蔡 代 之 前 使 用 过 的 XPath 表 


l.add value('title', response.meta['title'], 
MapCompose(unicode.strip, unicode.title)) 





你 会 发 现 我 们 不 再 调用 add_xpath() ， 而 是 转 为 调 
用 add_value() ， 这 是 因为 我 们 在 该 字段 中 将 不 会 再 使 用 到 任何 XPath 





表达 式 。 现 在 ， 可 以 使 用 scrapy crawl 运行 这 个 新 的 息 虫 ， 并 且 可 以 
在 PropertyItems 中 看 到 来 自 api.json 的 标题 。 


5.3 30 倍速 的 房产 扑 虫 


有 这 样 一 种 趋势 ， 当 你 开始 使 用 一 个 框架 时 ， 做 任何 事情 都 可 能 会 
使 用 最 复杂 的 方式 。 你 在 使 用 Scrapy 时 也 会 发 现 自己 在 做 这 样 的 事情 。 





在 疯狂 于 XPath 等 技术 之 前 ， 值 得 俘 下 来 想 一 想 : 我 选择 的 方式 是 从 网 
站 中 抽取 数据 最 简单 的 方式 吗 ? 


如 果 你 能 从 索引 页 中 抽取 出 基本 相同 的 信息 ， 就 可 以 避免 抓 取 每 个 
房 源 页 ， 从 而 得 到 数量 级 的 提升 。 


R 
请 记 住 ， 很 多 网 站 在 其 索引 页 中 提供 了 不 同 的 项 目 数量 选择 。 比 如 ， 一 
个 网 站 可 能 允许 你 通过 调整 参数 指定 每 个 索引 页 显示 的 房 源 数 是 10、50 还 是 


100， 如 &show=56 。 显 然 ， 如 果 是 这 样 的 情况 ， 就 可 以 将 该 参数 设置 为 允许 
的 最 大 值 。 


















































比如 ， 在 房产 示例 中 ， 我 们 所 需要 的 所 有 信息 都 存在 于 索引 页 中 ， 
包括 标题 、 描 述 、 价 格 和 图 片 。 这 就 意味 着 只 抓 取 一 个 索引 页 ， 就 能 抽 
取 其 中 的 30 个 条 目 以 及 前 往 下 一 页 的 链接 。 通 过 疏 取 100 个 索引 页 ， 我 
们 只 需要 100 个 请 求 ， 而 不 是 3000 个 请 求 ， 就 能 够 得 到 3000 个 条 目 。 太 
棒 了 ! 


在 真实 的 Gumtree 网 站 中 ， 索 引 页 的 描述 信息 要 比 列表 页 中 完整 的 
描述 信息 稍 短 一 些 。 不 过 此 时 这 种 抓 取 方 式 可 能 也 古 可 行 的 ， 甚 至 也 能 


令 人 满意 。 





al 


Q 








在 许多 情况 下 ， 我 们 将 不 得 不 权衡 数据 质量 与 请 求 数量 的 关系 。 很 多 源 








pee es 卖 章节 会 遇 到 更 多 此 类 问题 )》 ， 因 此 在 索引 中 获取 
可 能 帮助 我 们 解决 其 他 难题 。 





在 我 们 的 例子 中 ， 当 查看 任何 一 个 索引 页 的 HTML 代 码 时 ， 就 会 发 
现 索 引 页 中 的 每 个 房 源 都 有 其 自己 的 节点 ， 并 使 
用 itemtype="http://schema.org/Product" 来 表示 。 在 该 节点 中 ， 
我 们 拥有 与 详情 页 完全 相同 的 方式 为 每 个 属性 注解 的 所 有 信息 ， 如 图 
5.4 所 示 。 




















ra oe ao oe E 2 
| TE =a E Just now 
s = © =a a TE == 8 5 SB span.save 
P =x = "E m E om . 
6O Earls Court, London * 
work Sources Timeline Profiles Resources Audits Console 

</li> 
了 <Li> 










> <article class="listing—-maxi" itemscope itemtype="http://schema.org/Product" . j=""ad-—featured-105 





</li> 
v<li> 
Se class="Listing-maxi" itemscopegitemtype="http://schema.org/Product" d="ad-featured-104: 
: before 


v<a class="Listing-Link" href=" '/P/ sitet iS Ts i ll i hil lh Fa i i a. CC 
BE Ei & F mee" itemprop="url"> 
::before 
> <div class="listing-side">..</div> 


<h2 class=" listing-title" itemprop="name">..</h2> 
> <p class="listing-description truncate-paragraph 
hide-fully—to-m" itemprop="description">..</p> 


> <ul class="listing-attributes inline-list hide—fully—to-m">..</ul> 
> <div class="listing-location" itemscope itemtype="http://schema.org/Place">..</div> 
<strong class="listing-price txt-emphasis" itemprop="price">£270pw</strong> 





图 5.4 ”从 单一 索引 页 抽取 多 个 房产 信息 


我 们 在 Scrapy shell 中 加 载 第 一 个 索引 页 ， 并 使 用 XPath 表 达 式 进行 
测试 。 





$ scrapy shell http://web:9312/properties/index 6868660.html 


在 Scrapy shell, KWARA iA Productnr kH N: 





>>> p=response.xpath('//*[@itemtype="http://schema.org/Product"]') 


>>> len(p) 


30 


>>> p 


[<Selector xpath='//*[@itemtype="http://schema.org/Product"]' data=u'<li 


class="listing-maxi" itemscopeitemt'...] 


可 以 看 到 我 们 得 到 了 一 个 包含 30 个 Selector 对 象 的 列表 ， 每 个 对 
象 指 向 一 个 房 源 。 在 某 种 意义 上 ，Selector 对 象 与 Response 对 象 有 
些 相 似 ， 我 们 可 以 在 其 中 使 用 XPath 表达 式 ， 并 且 只 从 它们 指向 的 地 方 
获取 信息 。 唯 一 需要 说 明 的 是 ， 这 些 表 达 式 应 该 是 相对 XPath 表达 式 。 
相对 XPath 表达 式 与 我 们 之 前 看 到 的 基本 一 样 ， 不 过 在 前 面 增 加 了 一 
个 "点 写 。 举 例 说 明 ， 让 我 们 看 一 下 使 用 .//*[@itemprop="name"] 
[1]/text() 这 个 相对 XPath 表达 式 ， 从 第 4 个 房 源 抽取 标题 时 是 如 何 工 
VEN. 








>>> selector = p[3] 


>>> selector 


<Selector xpath='//*[@itemtype="http://schema.org/Product"]' ... '> 


>>> selector.xpath('.//*[@itemprop="name"][1]/text()').extract() 


[u'l fun broadband clean people brompton european ] 





可 以 在 Selector 对 象 的 列表 中 使 用 for 循环 ， 抽 取 索 引 页 中 全 部 
个 条 KA 的 信息 。 


为 了 实现 该 目的 ， 我 们 再 一 次 从 第 3 章 的 manual.py EF, KEE 

命名 为 "fast"， 并 重 命 名 文件 为 fast .py 。 我 们 将 复 用 大 部 分 代码 ， 
eee Alparse_items() 方法 中 进行 少量 修改 。 最 新 方法 的 代 
码 如 下 。 
def parse(self, response): 

# Get the next index URLs and yield Requests 

next_sel = response.xpath('//*[contains(@class,"next")]//@href') 

for url in next_sel.extract(): 


yield Request(urlparse.urljoin(response.url, url) ) 


# Iterate through products and create PropertiesItems 


selectors = response. xpath( 
'//*[@itemtype="http://schema.org/Product" ]' ) 
for selector in selectors: 
yield self.parse_item(selector, response) 





在 代码 的 第 一 部 分 中 ， 对 前 往 下 一 个 索引 页 的 Request yield 操 


作 的 代码 没有 变化 。 唯 一 改变 的 内 容 在 第 二 部 分 ， 不 再 使 用 yie1d 为 每 
个 详情 页 创建 请 求 ， 而 是 迭代 选择 器 并 调用 parse_item()。 其 
中 ，parse_item() 的 代码 也 和 原始 代码 非常 相似 ， 如 下 所 示 。 


def parse item(self, selector, response): 
Create the loader using the selector 
= ItemLoader(item=PropertiesItem(), selector=selector) 


Load fields using XPath expressions 

.add_xpath('title', './/*[@itemprop="name"][1]/text()', 
MapCompose(unicode.strip, unicode.title)) 

.add_xpath('price', './/*[@itemprop="price"][1]/text()', 
MapCompose(lambda i: i.replace(',', ''), float), 
re='[,.0-9]+') 

.add_xpath('description', 
".//*[@itemprop="description"][1]/text()', 
MapCompose(unicode.strip), Join()) 

.add_xpath('address', 
".//*[@itemtype="http://schema.org/Place"]' 
"[1]/*/text()', 

MapCompose(unicode. strip) ) 
make_url = lambda i: urlparse.urljoin(response.url, i) 
l.add_xpath('image_ urls', './/*[@itemprop="image"][1]/@src', 
MapCompose(make_url)) 


Housekeeping fields 

.add_xpath('url', './/*[@itemprop="url"][1]/@href', 
MapCompose(make_url)) 

.add_value('project', self.settings.get('BOT_NAME') ) 

.add_value('spider', self.name) 

.add_value('server', socket.gethostname() ) 

.add_value('date', datetime.datetime.now()) 


return 1.load_item() 





我 们 所 做 的 细微 变更 如 下 所 示 。 


e ItemLoader 现在 使 用 selector 作为 源 ， 而 不 再 是 Response 。 这 


是 ItemLoader API 一 个 非常 便捷 的 功能 ， 能 够 让 我 们 从 当前 选取 
的 部 分 (而 不 是 整个 页 面 ) 抽取 数据 。 
。 XPath 表 达 式 通过 使 用 前 缀 点 号 〈《.) 转 为 相对 XPath。 


A 
比较 巧合 的 是 ， 在 我 们 的 例子 中 ， 索 引 页 和 详情 页 中 的 XPath 表达 式 是 


一 样 的。 实际 情况 并 不 总 是 这 样 ， 你 可 能 需要 重新 开发 XPath 表达 式 ， 以 匹 
配 索 引 页 的 结构 。 


























。 我 们 必须 自己 编辑 Item 的 URL。 之 前 ，response.url 已 经 给 出 
了 房 源 页 的 URL。 而 现在 ， 它 给 出 的 是 索引 页 的 URL， 因 为 该 页 面 
才 是 我 们 要 改 取 的 。 我 们 需要 使 用 熟悉 的 .//t# 
[@itemprop="url" ][1]/@href 这 个 XPath 表达 式 抽 取出 房 源 的 
URL， 然 后 使 用 MapCompose 处 理 器 将 其 转换 为 绝对 URL。 





小 的 改变 能 够 节省 巨大 的 工作 量 。 现 在 ， 我 们 可 以 使 用 如 下 代码 运 
TZEE. 





$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=3 


INFO: Dumping Scrapy stats: 


"downloader/request_count': 3, ... 


"item_scraped_count': 90,... 





和 预期 一 样 ， 只 用 了 3 个 请 求 ， 残 抓 取 了 90 个 条 目 。 如 果 我 们 没有 





Nt 则 需要 93 个 请 求 。 这 种 方式 太 明 智 了 ! 


如 果 你 想 使 用 scrapy parse 进行 调试 ， 那 么 现在 必须 设置 spider 
参数 ， 如 下 所 示 。 





$ scrapy parse --spider=fast http://web:9312/properties/index_00000.html 


>>> STATUS DEPTH LEVEL 1 <<< 


# Scraped Items -------------------------------------------- 


[{'address': [u'Angel, London'], 


. 30 items... 


# Requests -= 


[<GET http://web:9312/properties/index_@0001.html1>] 





正如 期 望 的 那样 ，parse() 返回 了 36 Item 以 及 一 个 前 往 下 一 索 
引 页 的 Request 。 请 使 用 scrapy parse 随意 试验 ， 比 如 传输 - - 


depth=2 。 


5.4 AF Excel ¢ (ME AY HY IE He 


KERET. BME Aa SANER; PIERE FP 
你 想 要 抓 取 的 数据 来 自 多 个 网 站 ， 此 时 唯一 变化 的 东西 就 是 所 使 用 的 
XPath 表 达 式 。 对 于 此 类 情况 ， 如 果 为 每 个 网 站 部 使 用 一 个 候 忠 则 显得 
有 些小 题 大 做 。 那 么 可 以 只 使 用 一 个 扑 虫 来 息 取 所 有 这 些 网 站 吗 ? 答案 
是 肯定 的 。 





让 我 们 为 该 实验 创建 一 个 新 的 朴 虫 ， 因 为 这 次 爬 取 的 条 目 会 和 之 前 
区 别 很 大 《实际 上 我 们 还 没有 在 该 项 目 中 定义 任何 东西 ! ) 。 假 设 此 时 
在 ch65 下 的 properties 目录 中 。 让 我 们 向 上 一 层 ， 如 下 面 的 代码 所 示 
进行 操作 。 





$ pwd 


/root/book/ch@5/properties 


$ pwd 


/root/book/ch@5 





我 们 创建 了 一 个 名 为 generic 的 新 项 目 ， 以 及 一 个 名 为 fromcsv 的 
EE. 


$ scrapy startproject generic 


$ cd generic 


$ scrapy genspider fromcsv example.com 





现在 ， 创 建 一 个 .csv 文件 ， 其 中 包含 想 要 抽取 的 信息 。 可 以 使 用 
一 个 电子 表格 程序 ， 比 如 Microsoft Excel， 来 创建 这 个 .csv 文件 。 填 入 
如 图 5.5 所 示 的 几 个 URL 和 XPath 表达 式 ， 然 后 将 其 命名 为 todo.csv ， 
RAF SIME A RKAP Cscrapy.cfg 所 在 目录 ) 。 要 想 保存 为 .csv 文 
件 ， 需 要 在 保存 对 话 框 中 选择 CSV 文 件 (Windows) 作为 文件 格式 。 





二 | A | B | C 
1 furl name price 
2 | http://web:9312/static/a.html //*[@id="itemTitle"]/text{) //*[@id="prelsum")/text() 
3 | http://web:9312/static/b.html //h1/text() //span/strong/text() 
_ 4 |htto://web:9312/static/c.html //*[@id="product-desc"]/span/text() 





图 5.5 ”包含 URL 和 XPath 表达 式 的 todo.csv 


很 好 ! 如 果 一 切 都 已 就 绪 ， 你 融 可 以 在 终端 上 看 到 该 文件 。 





$ cat todo.csv 


url,name, price 


a.html,"//*[@id=""itemTitle""]/text()","//*[@id=""prcIsum""]/text()" 


b. html, //h1/text(),//span/strong/text() 


c.html,"//*[@id=""product-desc""]/span/text()" 





Python 有 一 个 用 于 处 理 .csv 文件 的 内 置 库 。 只 需 通过 import csv 
导入 模块 ， 然 后 就 可 以 使 用 如 下 这 些 直截了当 的 代码 ， 以 字典 的 形式 读 
取 文 件 中 的 所 有 行 了 。 在 当前 目录 下 打开 Python 提示 符 ， 束 可 以 答 试 如 
下 代码 。 





$ pwd 


/root/book/ch@5/generic2 


$ python 


>>> import csv 


>>> with open("todo.csv", "rU") as f: 


reader = csv.DictReader(f) 


for line in reader: 


print line 








文件 中 的 第 一 行 会 被 自动 作为 标题 行 处 理 ， 并 且 会 根据 它们 得 出 字 





典 中 键 的 名 称 。 在 接 下 来 的 每 一 行 中 ， 会 得 到 一 个 包含 行内 数据 的 字 





典 。 我 们 使 用 for 循 环 和 欠 代 每 一 行 。 当 运行 前 面 的 代码 时 ， 可 以 得 到 如 下 
输出 。 





{'url': ' http://a.html', 'price': '//*[@id="prcIsum"]/text()', 
'name': '//*[@id="itemTitle"]/text()'} 

{'url': ' http://b.html', 'price': '//span/strong/text()', 'name': '// 
h1/text()'} 

{'url': ' http://c.html', 'price': '', 'name': '//*[@id="product- 


desc" ]/span/text()'} 


[L CR 


非常 好 。 现 在 ， 可 以 编辑 generic/spiders/fromcsv.py 这 个 把 
虫 了 。 我 们 将 会 用 到 .csyv 文件 中 的 URL， 并 且 不 希望 有 任何 域名 限 
制 。 因 此 ， 首 先 要 做 的 事情 束 是 移 除 start_urls 以 及 
allowed_domains ， 然 后 读 取 .csv 文件 。 


由 于 我 们 事先 并 不 知道 想 要 起 始 的 URL， 而 是 从 文件 中 读 取得 到 
的 ， 因 此 需要 实现 一 个 start_requests() 方法 。 对 于 每 一 行 ， 创 建 
Request ， 然 后 对 其 进行 yield 操作 。 此 外 ， 还 会 在 reqeust.meta 中 
存储 来 自 csv 文件 的 字段 名 称 和 XPath 表达 式 ， 以 便 在 parse() 函数 中 
使 用 它们 。 然 后 ， 使 用 Item 和 ItemLoader 填充 Item 的 字段 。 下 面 是 
完整 的 代码 。 











import csv 

import scrapy 

from scrapy.http import Request 

from scrapy.loader import ItemLoader 
from scrapy.item import Item, Field 


class FromcsvSpider(scrapy.Spider): 
name = "fromcsv" 


def start_requests(self): 
with open("todo.csv", "rU") as f: 
reader = csv.DictReader(f) 
for line in reader: 
request = Request(line.pop('url')) 
request .meta[ 'fields'] = line 
yield request 


def parse(self, response): 
item = Item() 
l = ItemLoader(item=item, response=response) 
for name, xpath in response.meta['fields'].iteritems(): 
if xpath: 
item.fields[name] = Field() 


l.add_xpath(name, xpath) 
return 1.load_item() 





接 下 来 开始 爬 取 ， 并 将 结果 输出 到 out.csv 文件 中 。 





$ scrapy crawl fromcsv -o out.csv 


INFO: Scrapy 0.0.3 started (bot: generic) 


DEBUG: Scraped from <200 a.html> 


{'name': [u'My item'], ‘price’: [u'128']} 


DEBUG: Scraped from <200 b.html> 


{'name': [u'Getting interesting'], ‘price’: [u'366']} 


DEBUG: Scraped from <200 c.html> 


{'name': [u'Buy this now' ]} 


INFO: Spider closed (finished) 


$ cat out.csv 


price,name 


128,My item 


300,Getting interesting 


,BUY this now 





EUERE ZG ARE, ART Re! 





在 代码 中 ， 你 可 能 已 经 注意 到 了 几 个 事情 。 由 于 我 们 没有 为 该 项 目 
定义 系统 范围 的 Item ， 因 此 必须 像 如 下 代码 这 样 手 动 为 ItemLoader 提 
供 。 


item = Item() 
l = ItemLoader(item=item, response=response) 





此 外 ， 我 们 还 使 用 了 Itenm 的 成 员 变量 fields 动态 添加 字段 。 为 了 
能 够 动态 添加 新 字段 ， 并 通过 ItemLoader 对 其 进行 填充 ， 需 要 实现 的 
代码 如 下 。 








item.fields[name] = Field() 
l.add_xpath(name, xpath) 


最 后 ， 还 可 以 使 代码 更 加 好 看 。 硬 编码 todo .csv 文件 名 不 是 一 个 
非常 好 的 实践 。Scrapy 提 供 了 一 个 非常 便捷 的 方法 ， 用 于 传输 参数 到 把 
虫 当中 。 当 传输 一 个 命令 行 参数 -a 时 (比如 : -a variable=value 
) ， 就 会 为 我 们 设置 一 个 怜 虫 属 性 ， 并 且 可 以 通过 self.variable W 
得 该 值 。 为 了 检查 变量 ， 并 在 未 提供 该 变量 时 使 用 默认 值 ， 可 以 使 用 
Python 的 getattr() 方法 : getattr(self, 'variable', 
'default') 。 总 之 ， 我 们 将 原来 的 with open... 语句 替换 为 如 下 语 
aF 


with open(getattr(self, "file", "todo.csv"), "rU") as f: 





现在 ， 除 非 明 确 使 用 -a 参数 设置 源 文 件 名 ， 人 否则 将 会 使 
用 todo.csv 作为 其 默认 值 。 当 给 出 另 一 个 文件 another_todo.csv 
时 ， 可 以 按 如 下 方式 运行 。 





$ scrapy crawl fromcsv -a file=another_todo.csv -o out.csv 





5.5 ”本 章 小 结 


本 章 深 入 讨论 了 Scrapy 息 虫 的 内 部 机 制 。 我 们 学 习 了 使 
用 FormRequest 进行 登录 ， 使 用 Request/Response [meta 属性 传输 
变量 ， 使 用 相对 XPath 表达 式 和 Selector ， 以 及 使 用 .csv 文件 作为 源 


本 
等 。 


接 下 来 ， 第 6 章 会 讲解 如 何 将 爬虫 部 署 到 Scrapinghub 云 上 ， 第 7 章 将 
继续 深入 Scrapy 的 设置 。 


第 6 章 “” 部 署 到 Scrapinghub 


在 前 面 的 几 章 中 ， 我 们 了 解 了 如 何 开 发 Scrapy 爬 虫 。 当 我 们 对 疏 虫 
的 功能 感到 满意 时 ， 接 下 来 会 有 两 个 选项 。 如 果 我 们 需要 的 只 是 使 用 它 
们 执行 简单 的 抓 取 工作 ， 那 么 此 时 使 用 开发 机 运行 即 可 。 而 另 一 方面 ， 
更 常见 的 情况 是 需要 周期 性 地 运行 抓 取 任务 ， 此 时 可 以 使 用 云 服务 器 ， 
如 Amazon、RackSpace 或 其 他 提供 商 ， 不 过 这 些 都 需要 创建 、 配 置 和 维 
护 工 作 。 此 时 就 是 Scrapinghub 发 挥 作用 的 时 候 了 。 





Scrapinghub 是 Scrapy 托 管 的 Amazon 服 务 器 ， 它 是 由 Scrapy 开 发 者 创 
建 的 Scrapy 云 基础 设施 提供 商 。 它 是 一 个 付费 服务 ， 不 过 也 提供 了 免费 
方案 。 如 果 你 想 在 几 分 钟 内 ， 束 能 够 让 Scrapy 扑 虫 运行 在 专业 的 创建 和 
维护 环境 中 的 话 ， 那 么 本 章 非 常 适合 你 。 





6.1 JEM. Sx elem H 


第 一 步 是 在 http://scrapinghub.com/ EAEE =S. RAI i 
填写 的 只 有 邮箱 地 址 和 密码 。 在 单 击 确认 邮件 的 链接 后 ， 就 可 以 登录 到 
其 服务 中 。 我 们 可 以 看 到 的 第 一 个 页 面 是 个 人 面板 。 目 前 ， 我 们 还 没有 
任何 项 目 ， 因 此 现在 单 击 +Service 按钮 (1) 来 创建 一 个 项 目 ， 如 图 6.1 
所 示 。 








i r i 
'scrapinghub Search > Notifications Help ~ Status Changelog scrapybook @ 
1 

r 1 


1 


% Organizations & Services 





4 scrapybook organization + Member 


| Add new service to organization 





SS SS SS See tn an a ae 
1 


= J 3 


properties | | 
| ee 
! EE i Cancel ! 
' $ scrapybook organization ! ! 


a2 Scrapy Cloud om Portia poo Bi Crawlera 
2 








Ot a ce a ea a we 


a ae © 
@ properties 


' [i 
tooo EBD 人 -| 





图 6.1 在 scrapinghub 上 创建 新 项 目 


将 项 目 命名 为 properties (2) ， 然 后 单 击 Create 按钮 (3) 。 之 
后 ， 单 击 主页 的 new 链接 (4) 打开 该 项 目 。 








项 目 面 板 是 项 目 中 最 重要 的 页 面 。 在 左 侧 的 荣 单 中 ， 可 以 看 到 几 个 
区 域 ， 如 图 6.2 所 示 。Jobs 和 Spiders 区 域 分 别提 供 关 于 运行 和 把 虫 的 信 
ki. Periodic Jobs 允许 我 们 计划 定期 仆 取 任务 。 而 另外 4 个 区 域 目前 来 
说 对 我 们 没有 那么 有 用 。 


l Jobs 


scrapinghub 


properties 

project id: 28814 
organization: scrapybook 
0 spiders, 0 members 


Spiders 菜单 


Collections 
Usage 
Reports 
Activity 
Periodic jobs 


Settings 


Search 


Scrapy Cloud 





图 6.2” 主 菜单 


Pending Jot 


Running Jol 


我 们 可 以 直接 前 往 Settings 区 域 (1) ， 如 图 6.3 所 示 。 与 很 多 网 站 
的 设置 不 同 ，Scrapinghub 的 设置 提供 了 很 多 功能 ， 需 要 你 十 分 了 解 它 
们 。 目 前 ， 我 们 的 主要 关注 点 是 Scrapy Deploy 区 域 (2) 。 











scrapinghub search 


properties 
project id: 28814 


organization: scrapybook 


Scrapy Cloud 


0 spiders, 0 members 


Jobs 
Spiders 
Collections 
Usage 
Reports 
Activity 
Periodic } 
Settings 
Data Retention 
Eggs 
Items 
Members 


Scrapy Deploy 


> Notifications Help + 


properties Settings 


Copy and paste the following lines into your project's sc 


# Project: properties 


[deploy] 


url = httgs://dash.scrapinghub.com/api/scrapyd/ 


3. 复制 该 URL 


2 


/ 


Scrapy Deploy 








A633 CRBS 


6.2 MAERT 


我 们 将 直接 从 开发 机 进行 部 署 。 要 想 实现 这 一 目标 ， 只 需 将 Scrapy 
Deploy 页 面 中 的 代码 (3) 拷贝 到 项 目 中 的 scrapy.cfg CHF, AIR 
掉 默 认 的 [deploy] 区 域 即 可 。 你 会 注意 到 我 们 并 不 需要 设置 密码 。 我 
们 将 使 用 第 4 章 中 的 房产 项 目 作为 示例 ， 使 用 该 息 虫 的 原因 是 目标 数据 
需要 能 够 在 网 络 上 访问 到 ， 和 第 4 章 使 用 的 情况 一 样 。 在 使 用 它 之 前 ， 
需要 恢复 原始 的 settings .py 文件 ， 移 除 和 Appery.io 管 道 相 关 的 引 








本 章 代码 在 ch86 目录 中 。 其 中 ， 该 示例 位 于 ch86/properties 目录 



































$ pwd 


/root/book/ch@6/properties 


properties scrapy.cfg 


$ cat scrapy.cfg 


[settings ] 


default = properties.settings 


# Project: properties 


[deploy] 


url = http://dash.scrapinghub.com/api/scrapyd/ 


username = 180128bc7a@..... 50e8290dbf3ba 


password = 


project = 28814 





WY WAM, AR tH Scrapinghubi## #tMMshub 工具 。 可 以 通 
过 pip install shub 安装 该 工具 ， 不 过 我 们 已 经 在 开发 机 中 已 经 安装 
好 该 工具 了 。 可 以 使 用 下 述 方法 登录 Scrapinghub。 





$ shub login 


Insert your Scrapinghub API key : 180128bc7a0..... 50e8290dbf3b0 


Success. 


我 们 已 经 将 API key 复 制 到 scrapy.cfg 文件 中 了 ， 不 过 也 可 以 通过 
单 击 Scrapinghub 网 站 右上 角 的 用 户 名 ， 再 单 击 API Key 找到 该 值 。 无 论 
如 何 ， 现 在 我 们 已 经 准备 好 使 用 shub deploy WEEE Ss. 





$ shub deploy 


Packing version 1449092838 


Deploying to project "28814" in {"status": "ok", "project": 28814, 


"version": "1449992838", "spiders": 1} 


Run your spiders at: https://dash.scrapinghub.com/p/28814/ 


Scrapy 将 本 项 目 中 的 所 有 不 虫 打 包 ， 并 上 传 到 Scrapinghub 当 中 。 可 
以 注意 到 ， 此 时 产生 了 两 个 新 目录 和 一 个 新 文件 。 这 些 只 是 辅助 文件 ， 
如 果 不 需 要 的 话 ， 可 以 安全 地 删除 它们 ， 不 过 通常 情况 下 没 必要 在 意 它 
们 。 





build project.egg-info properties scrapy.cfgsetup.py 


$ rm -rf build project.egg-info setup.py 





现在 ， 当 单 击 Scrapinghub 的 Spiders 区 域 (1) 时 ， 可 以 找到 刚刚 部 


署 的 ttmobile 爬虫 ， 如 图 6.4 所 示 。 


scrapingnuD Search > Notifications Help ~ 
properties Scrapy Cloud properties / Spiders 
project id: 28813 
organization: scrapybuy< Spiders 
1 spiders, 0 members 2 
jobs li| Spider name Archived spiders 
| Spiders 
VE Last Run ^ 
Collections 
tomobile 一 一 
Usage 
Reports 


Activity 10 $ Spiders per page 


Periodic Jobs 


Sattinac 


图 6.4 选择 爬虫 


当 单 击 它 时 《2) ， 会 进入 到 疏 虫 面板 ， 如 图 6.5 所 示 。 该 面板 中 包 
含 大 量 信息 ， 不 过 目前 我 们 需要 做 的 就 是 单 击 右上 角 的 Schedule 按钮 
(3) ， 然 后 在 弹出 的 对 话 框 中 再 次 单 击 Schedule 按钮 “4) 。 


PP 


| Watch ~ | Go to Portia Oe a et a e oe eee ee ree ; 
| Schedule Spider | 
3 i Current version ' 


i ' Spiders 
west E E A EA RAEAN RA 


tomobile 


| Priority 


Normal 


: Running Jota (1) 5 : Na 


a Job Spider nems yo We Errors Log Runtime ， EE 


v1 RERI 423 301 o wo oaa, 


: 7 Completed Jobs (1) : 


DISCOS 2 MORE MOT Goa ebb sas : Job Spider ee Niz 只 
! tomobil 
j 1/1 1449097769 14 


Remove Restart 


图 6.5 RIER Z4T 


几 秒 钟 之 后 ， 可 以 在 页 面 中 的 Running Jobs 区 域 看 到 新 的 一 行 ， 之 
后 Requests 和 Items 的 数值 (5) 开始 不 断 增 长 。 


Q 
与 开发 时 的 运行 速度 相 比 ， 此 时 的 运行 速度 可 能 不 会 降低 。Scrapinghub 
使 用 了 算法 预 估 每 秒 的 请 求 数 ， 能 够 让 你 在 执行 时 不 会 被 屏蔽 。 

















让 它 运行 一 会 儿 ， 然 后 选择 该 任务 的 复 选 框 (6) ， 并 单 击 Stop 1x 
人 


几 秒 钟 之 后 ， 我 们 的 任务 将 会 停止 ， 并 进入 Completed Jobs 区 域 。 
要 想 查看 已 经 抓 取 的 条 目 ， 可 以 单 击 items 链 接 中 的 数字 (8) 。 
6.3 访问 item 


现在 ， 我 们 需要 前 往 任务 页 ， 如 图 6.6 所 示 。 在 该 页 中 ， 可 以 查看 
到 我 们 的 item (9) ， 并 确保 其 没有 问题 。 我 们 还 可 以 使 用 上 面 的 控件 
进行 过 滤 。 当 癌 下 滚动 页 面 时 ， 更 多 的 item 会 被 自动 加 载 出 来 。 





Job Items (799) Requests (1620) Log (22) Stats 


Filter by Field: Choos j v Choos r 7 Allitems ES 





Item Q 2015-12-02 21:49:10 UTC 


9 


same 
description smoking 
reception refurbished studio length selection newington fi de 
price 280.03 
url http: //scrapybook.s3.amazonaws.com/properties/pry 000.html 
address Chiswick, London 


date 1449092934903 
image_urls http://scrapybook.s3.amazonaws.com/images/il3.jpg 
project properties 

hw-shared-02-s4 


图 6.6 AAK- Hitem 


Get 





= 
CSV 


O! crape! 
JSON 
JSON Lines are 
XML | 


casi 13 12 
Random 
Latest 


如 果 存 在 一 些 没 能 正常 运行 的 情况 ， 可 以 在 Items 上 方 的 Requests 
和 Log 中 找到 有 用 的 信息 (10，〉。 可 以 使 用 顶部 的 面包 眉 导 航 回 到 疏 忠 








或 项 目 中 (11) 。 当 然 ， 也 可 以 通过 单 击 左上 方 的 Items 按钮 (12) ， 
选择 合适 的 选项 (13) ， 将 item 以 常见 的 CSV、JSON、JSON 行 等 格式 


下 载 下 来 。 


另 一 种 访问 item 的 方式 是 通过 Scrapinghub 提 供 的 Items API。 我 们 所 
需 做 的 束 是 查看 任务 或 items 页 面 中 的 URL， 类 似 于 下 面 这 样 。 





https://dash.scrapinghub.com/p/28814/job/1/1/ 








在 该 URL 中 ，28814 是 项 目 编号 (之 前 在 scrapy .cfg 文件 中 设置 


过 该 值 ) ， 第 一 个 1 是 该 肘 虫 的 编号 ID 〈 即 "tomobile "(EH , ME 
个 1 则 是 任务 编号 。 以 上 述 顺 序 使 用 这 3 个 数值 ， 并 使 用 我 们 的 用 户 

名 /API Key 进 行 验 证 ， 就 可 以 在 控制 台中 使 用 curl 建立 

到 https://storage.scapinghub.com/ items/<project 
id>/<spider id>/<job id> 的 请 求 ， 获 取 item， 该 过 程 如 下 所 示 。 





$ curl -u 186128bc7a6 56e8296dbf3b6: https://storage.scrapinghub.com/ 


items/28814/1/1 


{"_type":"PropertiesItem","description":["same\r\nsmoking\r\nr... 


{"_type":"PropertiesItem","description":["british bit keep eve... 





如 采 它 请 求 输入 密码 ， 我 们 将 其 留 空 即 可 。 人 允许 编程 访问 数据 的 特 
性 使 得 我 们 可 以 编写 应 用 ， 使 用 Scrapinghub 作 为 数据 存储 后 端 。 不 过 需 
要 注意 的 是 ， 这 些 数 据 并 不 是 无 限期 存储 的 ， 而 是 依赖 于 订阅 方案 中 的 
存储 时 间 限 制 “ 对 于 免费 方案 来 说 该 限制 为 7 天 ) 。 





6.4 计划 定时 爬 取 


现在 当 你 昕 到 计划 定时 息 取 任务 只 需要 单 击 几 下 鼠标 的 话 ， 应 该 不 
会 再 感到 惊讶 了 。 

该 过 程 如 图 6.7 所 示 。 我 们 只 需要 前 往 Periodic Jobs 区 域 (1) ， 单 
击 Add (2), WAM (3) ， 调 整 爬 取 频 率 (4) ， 最 后 单 击 Save 即 
可 (5) 。 


scrapinghub Search > Notifications Help ~ Status Changelog scrapybook @ 





properties Scrapy Cloud / properties / Periodic Jobs 


project id: 28814 
organization: scrapybook Spiders 
1 spiders, 0 members Re 六 
Month | Add Periodic Job 
Jobs 


Spiders 1 Scripts i Spiders P4 Choose Month 
Collections _ j tomobile Every month 
No scripts, 1 
Usage | Tags Choose Day of Week 
Reports ! | Type to add tag Every day $ 
Activity j 
， Priority Choose Day of Month 


| Periodic Jobs 
Settings Every day 


Rd Actions 





Normal 


-1 Arguments © Choose Hour 


Every hour 


Choose Minutes 


00 


图 6.7 计划 定时 把 取 
SA 
6.5 本章 小 结 


在 本 章 中 ， 我 们 拥有 了 第 一 次 部 署 Scrapy 项 目的 经 验 ， 这 里 我 们 使 
用 了 Scrapinghub 将 其 部 署 到 云端 。 我 们 计划 运行 任务 ， 收 集 上 千 个 
item， 并 且 可 以 通过 使 用 API 的 方式 非常 容易 地 浏览 和 抽取 它们 。 在 接 
下 来 的 章节 中 ， 我 们 将 会 继续 提高 知识 水 平 ， 为 自己 创建 一 个 类 似 
Scrapinghub 的 小 型 服务 器 。 首 移 ， 我 们 会 在 下 一 重 中 学 习 配 置 和 管理 。 














第 7 章 ”配置 与 管理 


前 面 章节 讲解 了 使 用 Scrapy 开 发 一 个 简单 肘 虫 ， 并 用 它 从 网 络 上 抽 
取 数 据 是 多 么 简单 。Scrapy 包 含 很 多 工具 和 功能 ， 可 以 通过 设置 使 它们 
可 用 。 对 于 许多 软件 框架 来 说 ， 设 置 是 “ 令 人 讨厌 的 东西 >， 因 为 它 需 要 
根据 系统 如 何 运转 进行 调整 。 而 对 于 Scrapy 来 说 ， 设 置 则 是 其 最 重要 的 
基本 机 制 之 一 ， 除 了 调 优 和 配置 外 ， 还 可 以 启用 功能 ， 以 及 允许 我 们 扩 
展 框架 。 我 们 不 打算 与 优秀 的 Scrapy 文 档 竞 争 ， 只 想 辅 助 你 更 快 地 浏览 
设置 概况 ， 并 找 出 与 你 最 相关 的 内 容 。 当 你 准备 在 生产 环境 中 进行 变更 
之 前 ， 请 仔细 陪读 Scrapy 文 档 。 








7.1 使 用 Scrapy 设 置 


在 Scrapy 中 ， 可 以 按照 5 个 递增 的 优先 级 修改 设置 。 我 们 将 会 依次 
看 到 这 5 个 等 级 。 第 一 级 是 默认 设置 ， 通 种 不 需要 修改 它 ， 不 过 
scrapy/settings/default_settings.py (在 系统 的 Scrapy 源 代码 
或 Scrapy 的 GitHub 中 可 以 找到 〉 中 的 代码 确实 值得 一 读 。 默 认 设置 在 命 
令 级 别 中 得 以 优化 。 实 际 上 ， 除 非 想 要 实现 自 定义 命令 ， 否 则 无 需 考 虑 
它 。 通 常情 况 下 ， 我 们 只 会 在 命令 级 别 下 一 级 的 项 目 
<project_name>/settings.py 文件 中 修改 设置 。 这 些 设置 只 应 用 于 
当前 项 目 。 该 级 别 最 为 方便 ， 因 为 当 我 们 将 项 目 部 普 到 云 服 务 
时 ，settings.py 文件 将 会 打包 在 其 中 ， 并 且 由 于 它 是 一 个 文件 ， 
此 可 以 使 用 自己 喜欢 的 文本 编辑 器 轻松 调整 几 十 个 设置 。 接 下 来 一 级 是 





每 个 爬虫 的 设置 。 通 过 在 爬虫 定义 中 使 用 custom_settings 属性 ， 可 
以 轻松 地 为 每 个 爬虫 自 定 义 设置 。 比 如 ， 可 以 通过 该 设置 为 一 个 指定 的 
和 候 虫 启用 或 禁用 Item 管 道 。 最 后 ， 对 于 一 些 临时 修改 ， 可 以 使 用 命令 行 
参数 -s ， 在 命令 行 中 传输 设置 。 我 们 在 前 面 已 经 使 用 过 几 次 ， 比 如 -s 
CLOSESPIDR PAGECOUNT=3, BUH FR Aenea, MEERES 
早 关 闭 。 在 该 级 别 中 ， 我 们 可 能 会 去 设置 API secrets、 密 码 等 。 不 要 将 
这 些 信息 写 入 settings .py 文件 中 ， 因 为 你 不 会 希望 它们 意外 出 现在 
某 些 公开 代码 库 当 中 。 








在 本 市 中 ， 我 们 将 会 研究 一 些 非常 重要 的 常用 设置 。 为 了 感受 不 同 
类 型 ， 可 以 在 任意 项 目 中 尝试 如 下 命令 。 








$ scrapy settings --get CONCURRENT_REQUESTS 





你 得 到 的 是 其 默认 值 。 然 后 ， 修 改 项 目 中 的 
<project_name>/settings.py 文件 ， 为 CONCURRENT_REQUESTS 设 
置 一 个 值 ， 比 如 14。 此 时 ， 前 面 的 scrapy settings 命令 将 会 给 出 你 








刚刚 设置 的 那个 值 ， 之 后 不 要 坏 记 恢复 该 值 。 接 下 来 ， 符 试 从 命令 行 中 
显 式 设置 该 参数 ， 将 会 得 到 如 下 结果 。 


$ scrapy settings --get CONCURRENT_REQUESTS -s CONCURRENT_REQUESTS=19 





前 面 的 输出 提示 了 一 个 很 有 意思 的 事情 。scrapy cwarl 和 scrapy 
settings 都 只 是 命令 。 每 个 命令 都 能 使 用 刚才 描述 的 加 载 设置 的 方 
法 ， 其 示例 如 下 所 示 。 








$ scrapy shell -s CONCURRENT REQUESTS=19 


>>> settings.getint("CONCURRENT_ REQUESTS') 


19 


当 需 要 找 出 项 目 中 茶 个 设置 的 有 效 值 时 ， 可 以 使 用 前 面 给 出 的 任意 
一 种 方法 。 现 在 ， 我 们 需要 更 加 仔细 地 了 解 Scrapy 的 设置 。 


7.2 ZERWE 
Scrapy 包 含 非 常 多 的 设置 ， 因 此 为 其 分 类 成 为 了 一 个 迫切 的 需求 。 


我 们 将 会 从 图 7.1 中 总 结 出 的 大 部 分 基本 设置 开始 讨论 。 通 过 它们 了 解 
重要 的 系统 特性 ， 并 且 我 们 还 将 频 楷 地 调整 它们 。 
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图 7.1 ”Scrapy 基 本 设置 
7.2.1 分 析 


使 用 这 些 设置 ， 你 可 以 配置 Scrapy， 使 其 通过 日 志 、 统 计 和 Telnet 
具 提 供 性 能 和 调试 信息 。 


i. Ae 


Scrapy 基 于 严重 程度 ， 拥 有 不 同 的 日 志 等 级 : DEBUG (最 低 等 
级 ) ~ INFO. WARNING 、ERROR 及 CRITICAL a: RIEZ 
外 ， 还 有 一 个 SILENT 等 级 ， 使 用 它 将 不 记录 任何 日 志 。 通 
将 LOG_LEVEL 设置 为 希望 日 志 记 录 的 最 低级 别 ， js 











受 指定 等 级 以 上 的 日 志 。 我 们 一 般 将 该 值 设 为 INFO ， 因 为 DEBUG 级 别 
过 于 详细 。 一 个 非常 有 用 的 Scrapy 扩 展 是 Log Stats 扩 展 ， 该 扩展 会 打印 
出 每 分 钟 抓 取 的 item 和 页 面 的 数量 。 日 志 频 率 使 用 LOGSTATS_INTERVAL 
进行 设置 ， 其 默认 值 为 60 秒 。 该 设置 的 频率 过 低 ， 所 以 在 我 开发 时 ， 
将 该 值 设置 为 5 秒 ， 因 为 大 多 数 运行 都 很 短暂 。 Sores anny 
WLOG FILE 设置 。 除 非 将 LOG_ENABLED 的 值 设置 为 False 进行 显 式 禁 
， 否 则 日 志 将 会 输出 到 标准 错误 当中 。 最 后 ， 可 以 通过 设 

置 LOG_STDOUT 为 True ， 告 知 Scrapy 将 所 有 标准 输出 (比如 : "print" 消 
ED 257 cans 











2. Bit 


STATS DUMP 默认 是 开启 的 ， 它 会 在 爬虫 结束 运行 时 ， 将 统计 信息 
收集 器 中 的 值 转 存 到 日 志 当 中 。 可 以 通过 将 DOWNLOADER_STATS 设置 
为 False ， 控 制 是 否 为 下 载 记录 统计 信息 。 还 可 以 通过 DEPTH_STATS 
设置 ， 控 制 是 否 收集 站 点 深度 的 统计 信息 。 要 想 了 解 有 关 深 度 的 更 多 细 
节 ， 可 以 将 DEPTH_STATS_VERBOSE 设 为 True 。STATSMAILER_RCPTS 
是 一 个 邮件 列表 (比如 设置 为 ['my@mail.com'] ) ， 当 疏 取 完成 时 ， 
会 癌 该 列表 中 的 邮箱 发 送 邮件 。 无 需 经 常 调整 这 些 设 置 ， 不 过 它们 偶尔 
会 在 调试 时 帮助 到 你 。 





3. Telnet 


Scrapy 包 含 一 个 内 置 的 Telnet 控 制 台 ， 可 以 为 你 提供 正在 运行 中 的 
Scrapy 进 程 的 Python shell。TELNETCONSOLE_ENABLED 默认 情况 下 是 开 
启 的 ， 而 TELNETCONSOLE_PORT 决定 了 连接 到 控制 台 的 端口 。 你 可 能 需 
要 修改 该 值 ， 以 防止 端口 冲突 。 


示例 1 一 一 使 用 Telnet 


在 某 些 情况 下 ， 需 要 查看 正在 运行 的 Scrapy 的 内 部 状态 。 下 面 让 我 
们 看 看 如 何 使 用 Telnet 控 制 台 完成 该 操作 。 








本 章 代 码 位 于 ch87 目录 中 。 
中 。 

















中 ， 本 示例 在 che7/properties 目录 





$ pwd 


/root/book/ch@7/properties 


$ 1s 


properties scrapy.cfg 


使 用 如 下 命令 开始 爬 取 。 


$ scrapy crawl fast 


[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023:6023 





FERRARE Tent Awd, FF HEH 6023% FETT thi 
听 。 现 在 ， 可 以 在 另 一 个 终端 中 ， 使 用 telnet 命 令 连接 它 。 





$ telnet localhost 6023 


>>> 


此 时 ， 访 控制 台 会 提供 一 个 Scrapy 内 部 的 Python 控制 台 。 你 可 以 得 
看 某 些 组 件 ， 比 如 使 用 engine 变量 查看 引擎 ， 不 过 为 了 能 够 更 快 地 了 
解 状态 概况 ， 可 以 使 用 est() ME. 





>>> est() 


Execution engine status 


time()-engine.start time : 5.73892092705 


engine.has_capacity() : False 


len(engine.downloader.active) : 8 


len(engine.slot.inprogress) : 10 


len(engine.scraper.slot.active) : 2 





第 10 章 将 会 探讨 其 中 的 一 些 度 量 标准 。 此 时 将 发 现 你 依然 是 在 
Scrapy 引 擎 内 部 运行 它 。 假 设 使 用 了 如 下 命令 : 





>>> import time 


>>> time.sleep(1) # Don't do this! 


此 时 ， 你 会 发 现在 另 一 个 终端 中 会 出 现 短暂 的 和 暂停。 显然， 该 控制 
台 不 是 用 来 计算 Pi 值 前 100 万 位 的 合适 地 点 。 你 可 以 在 该 控制 台中 操作 
的 事情 还 包括 和 暂停、 继续 和 终止 肘 取 。 你 可 能 会 发 现 ， 在 远程 机 器 操作 
Scrapy 会 话 时 ， 这 些 事情 和 终端 通常 都 很 有 用 。 








>>> engine.pause() 


>>> engine.unpause() 


>>> engine.stop() 


Connection closed by foreign host. 





7.2.2 PERE 


第 10 章 将 会 详细 介绍 关于 性 能 的 设置 ， 这 里 仅 作 为 一 个 小 结 。 性 能 
设置 可 以 让 我 们 根据 特定 的 工作 负载 调整 Scrapy 的 性 能 特 
性 。CONCURRENT_REQUESTS 用 于 设置 同时 执行 的 最 大 请 求 数 。 大 多 数 
情况 下 ， 该 设置 用 于 防止 在 爬 取 不 同 网 站 GRIP) 时 超出 服务 器 出 站 
容量 。 除 此 之 外 ， 还 可 以 找到 更 加 严格 的 
CONCURRENT_REQUESTS_PER_DOMAIN 以 及 
CONCURRENT_REQUESTS_PER_IP 。 这 两 个 设置 分 别 通 过 限制 同时 对 每 
个 域名 或 IP 地 址 发 出 的 请 求 数 ， 达 到 保护 远程 服务 器 的 效果 。 
当 CONCURRENT_REQUESTS_PER_IP 为 非 零 值 
时 ，CONCURRENT_REQUESTS_PER_DOMAIN 就 会 被 忽略 。 这 些 设置 不 是 
以 秒 为 单位 的 。 如 果 CONCURRENT_REQUESTS = 16 ， 而 请 求 平均 花费 
1/4 秒 的 话 ， 你 的 限制 就 是 每 秒 16/0.25 = 64 个 请 求 。CONCURRENT_ITEMS 
用 于 设置 对 每 个 啊 应 同时 处 理 的 最 大 item 数 量 。 你 可 能 会 发 现 该 设置 并 
没有 它 看 起 来 那么 实用 ， 因 为 很 多 情况 下 ， 每 个 页 面 或 请 求 中 只 有 一 
个 Item 。 并 且 ， 其 默认 值 100 也 比较 随意 。 如 果 减 小 该 值 ， 比 如 减 小 到 
10 或 者 1， 你 甚至 可 能 会 看 到 性 能 提升 ， 这 取决 于 每 个 请 求 的 Item 数 
量 ， 以 及 管道 的 复杂 程度 。 还 需要 注意 的 是 ， 由 于 该 值 是 每 个 请 求 时 的 
数量 ， 如 果 限 制 了 CONCURRENT_REQUESTS = 16 
、CONCURRENT_ITEMS = 166 ， 那 么 可 能 意味 着 会 有 1600 个 item 同 时 在 
尝试 写 入 数据 库 。 一 般 来 说 ， 建 议 将 该 值 设置 得 更 保守 一 些 。 


























对 于 下 载 ，DOWNLOAD_TIMEOUT 决定 了 下 载 嚣 在 取消 一 个 请 求 之 前 
需要 等 待 的 时 间 ， 其 默认 值 为 180 秒 ， 这 似乎 有 些 偏 高 〈 当 并 发 请 求 数 
为 16 时 ， 这 意味 着 站 点 下 载 的 速度 大 约 为 5 页 /分 钟 ) 。 建 议 降 低 该 值 ， 








比如 当 存 在 超时 间 题 时 ， 将 其 降低 为 10 秒 。 默 认 情 况 下 ，Scrapy 将 两 次 
下 载 间 的 延迟 设置 为 0， 以 最 大 化 抓 取 速 度 。 可 以 使 用 DONNLOAD_DELAY 
设置 将 其 修改 为 更 加 保守 的 下 载 速 度 。 有 些 网 站 会 将 请 求 频率 作为 “机 

器 人 ”行为 的 测量 指标 。 通 过 设置 DOWNLOAD_DELAY ， 还 会 在 下 载 延 迟 

中 启用 一 个 +50% 的 随机 偏 移 量 。 可 以 通过 

将 RANDOMIZE_DOWNLOAD_DELAY 设置 为 False 来 禁用 该 功能 。 





最 后 ， 为 了 更 快 的 DNS 查找 ，Scrapy 默 认 使 用 了 
DNSCACHE_ENABLED 设置 ， 启 用 了 内 存 中 的 DNS 缓存 。 


7.2.3 fen EJER 


ScrapyH'JCloseSpiderd) Æ FJ VA ZEIA RET ATEIN, A AAEE Haye 
取 。 可 以 分 别 使 用 CLOSESPIDER_TIMEOUT (以 秒 
计 ) 、CLOSESPIDER_ITEMCOUNT 、CLOSESPIDER_PAGECOUNT 以 及 
CLOSESPIDER_ERRORCOUNT 这 些 设置 ， 配 置 在 一 段 时 间 后 、 抓 取 一 定 
数量 item 后 、 接 收 到 一 定数 量 响应 后 或 是 过 到 一 定数 量 错误 后 ， 关 闭 扑 
虫 。 通 常情 况 下 ， 你 会 在 运行 仆 虫 时 使 用 命令 行 的 方式 设置 这 些 内 容 ， 
我 们 已 经 在 前 面 的 几 章 中 做 过 几 次 此 类 操作 。 

















$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=16 


$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10 


$ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=16 








7.2.4 HTTP 缓存 和 离线 运行 


Scrapy 的 HttpCacheMiddleware 组 件 〈 默 认 未 激活 ) 为 HTTP 请 求 
和 响应 提供 了 一 个 低级 的 组 在。 当局 用 该 组 件 时 ， 绥 存 会 存储 每 个 请 求 
及 其 对 应 的 响应 。 通 过 将 HTTPCACHE_POLICY 设置 
为 scrapy.contrib.httpcache.RFC2616Policy ， 可 以 启用 一 个 遵从 
RFC2616 的 更 复杂 的 缓存 策略 。 为 了 局 用 该 缓存 ， 还 需要 
将 HTTPCACHE_ENABLED 设置 为 True ， 并 将 HTTPCACHE_DIR 设置 为 文 
件 系 统 中 的 一 个 目录 《使 用 相对 路 径 将 会 在 项 目的 数据 文件 夹 下 创建 一 
个 目录 ) 。 





还 可 以 选择 通过 设置 存储 后 端 类 HTTPCACHE_STORAGE 
Ascrapy.contrib.httpcache.DbmCacheStorage ， 为 缓存 文件 指 
定数 据 库 后 端 ， 并 且 还 可 以 选择 调整 HITPCACHE_DBM_MODULE 设 
置 (默认 为 任意 数据 库 管理 系统 ) 。 还 有 一 些 设置 可 以 用 于 缓存 行为 调 
优 ， 不 过 默认 值 已 经 能 够 为 你 很 好 地 服务 了 。 





示例 2 一 一 使 用 缓存 的 离线 运行 





假设 你 运行 了 如 下 代码 : 


$ scrapy crawl fast -s LOG_LEVEL=INFO -s CLOSESPIDER_ITEMCOUNT=5666 














你 会 发 现 大 约 一 分 钟 后 运行 可 以 完成 。 如 果 此 时 无 法 访问 Web 服 务 
项 ， 可 能 惑 无 法 爬 取 任 何 数据 。 假 设 你 现在 使 用 如 下 代码 ， 再 次 运行 疏 
He 





$ scrapy crawl fast -s LOG_LEVEL=INFO -s CLOSESPIDER_ITEMCOUNT=5666 -s 


HTTPCACHE_ENABLED=1 


INFO: Enabled downloader middlewares:...*HttpCacheMiddleware* 


| 


你 会 注意 到 此 时 启用 了 HttpCacheMiddleware ， 当 查看 当前 目录 
下 的 隐藏 目录 时 ， 将 会 发 现 一 个 新 的 .scrapy 目录 ， 目 录 结 构 如 下 所 
7B 

















$ tree .scrapy | head 


.scrapy 


L— httpcache 


L— easy 


— oo 


— 962654968919f13763a7292c1967caf66d5a4816 


| | 一 meta 


| |— pickled_meta 


| | 一 request_body 


| | | 一 request_headers 


| | | 一 response_body 





现在 ， 如 果 重 新 运行 息 忠 ， 获 取 上 略 少 于 前 面 数量 的 item 时 ， 就 会 发 
现 即 使 在 无 法 访问 Web 服 务 器 的 情况 下 ， 也 能 完成 得 更 加 迅速 。 





$ scrapy crawl fast -s LOG_LEVEL=INFO -s CLOSESPIDER_ITEMCOUNT=4566 -s 


HTTPCACHE_ENABLED=1 





我 们 使 用 了 略 少 于 前 面 数量 的 item 作 为 限制 ， 是 因为 当 使 
用 CLOSESPIDER_ITEMCOUNT 结束 时 ， 一 般 会 在 爬虫 完全 结束 前 读 取 更 
多 的 页 面 ， 但 我 们 不 希望 命中 的 页 面 不 在 绥 存 范围 内 。 要 想 清理 缓存 ， 
只 需 删除 缓存 目录 即 可 。 


$ rm -rf .scrapy 


7.2.5 JERKS 


Scrapy 人 允许 我 们 调整 选择 优先 爬 取 页 面 的 方式 。 可 以 
在 DEPTH_LIMIT 设置 中 设 定 最 大 深度 ， 该 值 为 0 时 表示 不 限制 。 通 过 
DEPTH_PRIORITY 设置 ， 可 以 基于 请 求 的 深度 指定 优先 级 。 最 值得 注意 
的 是 ， 可 以 将 该 值 设置 为 正 数 ， 以 执行 广度 优先 仆 取 ， 并 将 任务 队列 由 





LIFO (后 入 先 出 〉 转 为 FIFO 〈 先 入 先 出 ) : 


DEPTH_PRIORITY = 1 


SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue' 


SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue' 





在 爬 取 时 进行 这 些 设 置 非常 有 用 ， 比 如 ， 在 一 个 新 闻 门 户 网 站 中 ， 
最 近 的 新 闻 更 应 该 接近 首页 ， 并 且 每 个 新 闻 页 都 有 到 其 他 相关 新 闻 的 链 
接 。Scrapy 的 默认 行为 是 对 首页 的 前 儿 个 新 闻 报 道 进 行 尽 可 能 深 地 让 
取 ， 之 后 才 会 继续 爬 取 接 下 来 的 头 厂 新 闻 。 而 广度 优先 的 顺序 则 是 首先 
息 取 最 项 层 的 新 闻 ， 之 后 才 会 进一步 深入 ， 当 结合 DEPTH_LIMIT 设置 
时 ， 比 如 设 为 3， 可 以 让 你 快速 浏览 门户 网 站 中 最 近 的 新 闻 。 





网 站 在 其 根 目录 下 使 用 Web 标 准 的 robots .txt 文件 ， 声 明 它 们 多 
许 的 爬 取 策略 ， 以 及 不 希望 被 访问 的 网 站 结构 。 如 果 
将 ROBOTSTXT_OBEY 设置 为 True ，Scrapy 将 会 遵守 该 约定 。 如 果 启 用 了 


该 设置 ， 请 在 调试 时 记 住 该 点 ， 以 防 发 现任 何 意外 的 行为 。 


CookiesMiddleware 显然 包含 了 和 cookie 相关 的 所 有 操作 ， 其 中 
包括 会 话 跟踪 、 准 许 登 录 等 。 如 果 你 想 拥有 更 “私密 ”的 聆 取 ， 可 以 通过 
将 COOKIES_ENABLED 设置 False 以 禁用 。 禁 用 cookie 还 会 轻微 降低 你 使 
用 的 带宽 ， 并且 可 能 会 对 你 的 候 取 操作 有 一 点 提速 ， 当 然 它 会 依赖 于 你 
和 候 取 的 网 站 。 与 CookiesMiddleware 类 似 ，REFERER_ENABLED 的 默认 
设置 是 True ， 即 启用 了 用 于 填充 Referer 头 的 RefererMiddleware 。 可 
以 使 用 DEFAULT_REQUEST_HEADERS 自 定 义 头 部 。 你 可 能 会 发 现 该 设置 
对 于 某 些 奇怪 的 网 站 很 有 用 ， 在 这 些 网 站 中 只 有 包含 了 特定 请 求 头 的 请 
求 才 不 会 被 禁止 。 最 后 ， 自 动 生 成 的 settings .py 文件 推荐 我 们 设 
置 USER_AGENT 。 该 设置 的 默认 值 是 Scrapy 的 版 本 ， 而 我 们 需要 将 其 修 
改 为 能 够 让 网 站 拥有 者 联系 到 我 们 的 信息 。 








7.2.6 feed 


feed 可 以 让 你 将 Scrapy 抓 取得 到 的 数据 输出 到 本 地 文件 系统 或 远程 
服务 器 当中 。FEED_URI .FEED_URI 决定 了 feed 的 位 置 ， 该 设置 中 可 能 
会 包含 命名 参数 。 比 如 ，scrapy fast -o "%(name)s % 
(time)s.jl" 将 会 自动 以 当前 时 间 和 把 虫 名 称 (fast ) 填充 输出 文件 
名 。 如 果 需 要 使 用 一 个 自 定义 参数 ， 比 如 %(foo)s ， 那 么 feed 输出 器 
需要 你 在 聆 虫 中 提供 foo 属性 。 此 外 ，feed 的 存储 ， 如 S3、FTP 或 本 地 
文件 系统 ， 也 定义 在 URI 中 。 例 
如 ，FEED_URI='s3://mybucket/file.json' 将 使 用 你 的 Amazon 和 凭 
证 CAWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY ) 上 传 文件 到 
Amazon 的 S3 当 中 。Feed 的 格式 (JSON, JSON Line、CSV 及 XML) 可 








以 使 用 FEED_FORMAT 确定 。 如 果 没 有 设 定 该 设置 ，Scrapy 将 会 根 

据 FEED_URI 的 扩展 名 猜测 格式 。 通 过 将 FEED_STORE_EMPTY 设置 

为 True ， 可 以 选择 输出 空 的 fed。 此外， 还 可 以 使 

用 FEED_EXPORT_FIELDS 设置 ， 选 择 只 输出 指定 的 几 个 字段 。 该 设置 对 
于 具有 固定 标题 列 的 .csv 文件 尤其 有 用 。 最 后 ，FEED_URI_PARAMS 用 
于 定义 对 FEED_URI 中 任意 参数 进行 后 置 处 理 的 函数 。 


7.2.7 媒体 下 载 


Scrapy 可 以 使 用 图 像 管道 下 载 媒体 内 容 ， 此 外 还 可 以 将 图 像 转 换 为 
不 同 的 格式 、 生 成 给 略图 以 及 基于 大 小 过 滤 图 像 。 


IMAGES_STORE 设置 用 于 设 定 图 像 存储 的 目录 《使 用 相对 路 径 时 ， 
将 会 在 项 目 根 目录 下 创建 目录 ) 。 每 个 Item 的 图 像 URL 应 该 
在 ijmage_urls 字段 中 设 定 〈 可 以 被 IMAGES_URLS_FIELD KB 
写 ) ， 而 下 载 图 像 的 文件 名 则 是 在 一 个 新 的 images 字段 中 设 定 〈 可 以 
被 IMAGES_RESULT_FIELD KARS) 。 可 以 使 用 IMAGES_MIN_WNIDTH 
和 IMAGES_MIN_HEIGHT 设置 过 滤 过 小 的 图 像 。IMAGES_EXPIRES 决定 
了 图 像 在 过 期 前 保留 在 缓存 中 的 天 数 。 对 于 缩 略 图 的 生成 ， 可 以 使 
用 IMAGES_THUMBS 设置 ， 它 可 以 让 你 按照 一 种 或 多 种 尺寸 生成 缩 略 
图 。 比 如 ， 可 以 让 Scrapy 生 成 一 种 图 标 大 小 的 缩 略 图 以 及 一 种 用 于 每 次 
图 像 下 载 时 的 中 等 大 小 缩 略 图 。 


1. 其 他 媒体 





可 以 使 用 文件 管道 下 载 其 他 媒体 文件 。 与 图 像 类 似 ，FILES_STORE 
设置 用 于 确定 已 下 载 文件 的 存放 位 置 ， 而 FILES_EXPIRES 设置 用 于 确 


定 文件 保留 的 天 数 。FILES_URLS_FIELD 以 及 FILES_RESULT_FIELD ix 
置 都 和 对 应 的 IMAGES_* 设置 的 功能 相似 。 文 件 管道 和 图 像 管道 可 以 同 
时 激活 ， 不 会 产生 冲突 。 


示例 3 一 一 下 载 图 像 


为 了 能 够 使 用 图 像 功 能 ， 必 须 使 用 sudo pip install image 安 
装 图 像 包 。 在 我 们 的 开发 机 中 ， 己 经 为 大 家 安装 好 该 三 方 包 了 。 想 要 启 
用 图 像 管道 ， 只 需要 编辑 项 目的 settings .py 文件 ， 添 加 少量 设置 。 
首先 ， 需 要 在 ITEM_PIPELINES 中 包 
含 scrapy.pipelines.images.ImagesPipeline 。 然 后 ， 设 
置 IMAGES_STORE 为 相对 路 径 "images"”， 此 外 还 可 以 选择 通过 
IMAGES_THUMBS 设置 一 些 缩 略 网 的 描述 ， 相 关 代 人 码 如 下 所 示 。 





ITEM_PIPELINES = { 


"scrapy.pipelines.images.ImagesPipeline': 1, 


IMAGES STORE = ‘images' 
IMAGES_THUMBS = { ‘small': (30, 30) } 





我 们 在 Item 中 已 经 包含 了 合适 的 image_urls 字段 ， 所 以 现在 可 以 
参照 如 下 命令 执行 仆 虫 了 。 


VS 





$ scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=96 


DEBUG: Scraped from 《266 http://http://web:9312/.../index_90003.htm1/ 


property_000001.htm1>{ 


‘image_urls': [u'http://web:9312/images/i02.jpg'], 


"images': [{'checksum': 'c5b29f4b223218e5b5beece79fe31510', 


"path': 'full/705a3112e67...a1f.jpg', 


‘url': 'http://web:9312/images/i02.jpg'}], 


$ tree images 


images 


— full 


| | 一 Qabf@72604df23b3be3ac51c9509999Fa92ea311. jpg 


| — 1520131b5cc5f656bc683ddf5eab9b63e12c45b2. jpg 


L— thumbs 


L— small 


— Oabf072604df23b3be3ac51c9509999Fa92ea311. jpg 


| 一 1520131b5cc5f656bc683ddf5eab9b63e12c45b2. jpg 
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照 预 期 存储 在 了 ;images 字段 当中 ， 因 此 很 容易 推测 缩 略 图 的 路 径 。 如 
果 想 要 清空 网 像 ， 我 们 可 以 使 用 rm -rf images 。 


7.2.8 Amazon Web 服 务 


Scrapy 对 访问 Amazon Web 服 务 有 内 置 文 持 。 你 可 以 在 AWSACCFESS 
KEY ID 设置 中 存储 AWS 访 问 密 钥 ， 在 AWS_SECRET_ACCESS_KEY 设 
置 中 存储 私密 密 钥 。 默 认 情 况 下 ， 这 些 设置 均 为 空 。 可 以 在 如 下 场景 中 
使 用 : 


e 当下 载 以 s3:// 开头 的 URL 时 “〔〈 而 不 是 https:// 等 ) ; 
。 当 通 过 媒体 管道 使 用 s3:// 路 径 存储 文件 或 纵 略 网 时 ; 
e 当 在 s3:// 目录 中 存储 Item 的 输出 Feed 时 。 


不 要 将 这 些 设置 存储 在 settings.py 文件 当中 ， 以 防 未 来 某 天 由 
于 任何 原因 造成 代码 公开 时 被 泄露 。 


7.2.9 ”使 用 代理 和 疏 虫 


Scrapy 的 HttpProxyMiddleware 组 件 允 许 你 使 用 代理 设置 ， 根 据 
UNIX 约 定 ， 这 些 设 置 是 通过 http_proxy 、https_proxy 以 及 
no_proxy 这 几 个 环境 变量 定义 的 。 该 组 件 默 认 是 启用 状态 的 。 


示例 4 一 一 使 用 代理 和 Crawlera 的 智能 代理 


DynDNS 《或 任何 类 似 的 服务 ) 提供 了 一 个 免费 的 在 线 工 具 ， 用 于 
查看 当前 的 卫 地 址 。 使 用 Scrapy shell， 我 们 向 checkip.dyndns.org 发 
送 请 求 ， 查 看 响应 ， 获 取 当 前 的 也 地 址 。 








$ scrapy shell http://checkip.dyndns.org 


>>> response. body 


"<html><head><title>Current IP Check</title></head><body>Current IP 


Address: XXX.XXX. XXX. xxx</body></htm1l>\r\n' 


>>> exit( ) 








想 要 开始 代理 请 求 ， 需 要 退出 shell， 并 使 用 export 命令 设置 新 的 
代理 。 可 以 通过 搜索 HMA 的 公开 代理 列表 测试 免费 代理 
(http://proxylist. hidemyass.com) 。 比 如 ， 我 们 从 该 列表 中 
选择 了 一 个 IP 为 10.10.1.1、 端 口 为 80 的 代理 〈 非 真实 存在 的 代理 ， 请 将 
其 蔡 换 为 你 自己 的 代理 地 址 ) ， 可 以 按照 如 下 操作 。 





$ # First check if you already use a proxy 


$ env | grep http_proxy 


$ # We should have nothing. Now let's set a proxy 


$ export http_proxy=http://10.10.1.1:80 





按照 刚才 的 步骤 重新 运行 scrapy shell， 可 以 看 到 执行 的 请 求 使 用 了 








不 同 的 PP。 此 外 ， 你 还 会 发 现 这 些 代 理 通常 速度 都 很 慢 ， 而 且 在 一 些 情 
况 下 无 法 成 功 ， 如 果 遇 到 这 类 情况 ， 可 以 尝试 更 换 为 其 他 的 代理 。 如 果 
想 要 禁用 代理 ， 则 需要 退出 Scrapy shell， 并 执行 unset http_proxy 
《或 恢复 为 之 前 的 值 ) 。 





Crawlera 是 Scrapinghub 的 一 项 服务 ， 可 以 为 Scrapy 的 开发 者 提供 一 
个 非常 智能 的 代理 。 除 了 在 后 台 使 用 很 大 的 IP 池 路 由 你 的 请 求 外 ， 该 代 
理 还 会 调整 延迟 和 失败 重 试 ， 让 你 在 保持 尽 可 能 快 的 情况 下 ， 获 得 尽 可 
能 多 且 稳 定 的 成 功 响应 流 。 它 基本 上 可 以 使 肘 虫 开发 者 的 梦想 成 真 ， 并 
且 只 需 像 之 前 那样 ， 设 置 http_proxy 环境 变量 ， 就 可 以 使 用 。 


$ export http proxy=myusername:mypassword@proxy .crawlera.com:8616 





除了 HTTP 代 理 外 ，Crawlera 还 可 以 通过 Scrapy 的 中 间 件 组 件 方式 使 
用 。 


73 JAKE 
现在 ， 我 们 要 探讨 一 些 Scrapy 中 不 太 常 见 的 方面 ， 以 及 Scrapy 扩 展 


的 相关 设置 ， 后 续 章 节 中 会 详细 介绍 这 些 内 容 。 这 些 进 阶 设置 如 图 7.2 
所 示 。 
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图 7.2”Scrapy 进 阶 设 置 


7.3.1 项 目 相 关 设 置 


在 这 里 可 以 找到 一 些 与 具体 项 目 相关 的 管理 设置 ， 如 BOT_NAME 
、SPIDER_MODULES 等 。 你 可 以 快速 浏览 一 下 这 些 设置 的 文档 ， 因 为 它 
们 会 提升 具体 用 例 的 生产 效率 ， 不 过 通常 情况 下 ，Scrapy 的 
startproject 和 genspider 命令 都 已 经 提供 了 合理 的 默认 值 ， 即 使 不 
显 式 修改 它们 ， 也 能 很 好 地 运行 。 邮 件 相关 的 设置 ， 比 如 MAIL_FROM ， 





可 以 让 你 配置 Mailsender 类 ， 该 类 目前 用 于 统计 邮件 信息 《另外 参见 
STATSMAILER_RCPTS ) 以 及 内 存 使 用 信息 《另外 参见 
MEMUSAGE_NOTIFY_MAIL ) 。 还 有 两 个 环境 变 

量 : SCRAPY_SETTINGS MODULE 以 及 SCRAPY_PROJECT ， 可 以 让 你 调 
整 Scrapy 项 目 与 其 他 项 目 集 成 的 方式 ， 比 如 Django 项 目 。scrapy.cfg 


还 允许 你 调整 设置 模块 的 名 称 。 
7.3.2 ”Scrapy 扩 展 设置 


这 些 设置 能 够 让 你 扩展 并 修改 Scrapy 的 几乎 所 有 方面 。 这 些 设置 中 
最 重要 的 当 属 ITEM_PIPELINES 。 它 可 以 让 你 在 项 目 中 使 用 Item 处 理 管 
道 。 第 9 章 会 看 到 更 多 的 例子 。 除 了 管道 之 外 ， 还 可 以 通过 不 同 的 方式 
扩展 Scrapy， 其 中 一 些 将 会 在 第 8 章 中 进行 总 结 。COMMANDS_MODULE fù 
许 我 们 添加 常用 命令 。 比 如 ， 可 以 在 properties/hi.py 文件 中 添加 如 
下 内 容 。 











from scrapy.commands import ScrapyCommand 

class Command(ScrapyCommand): 
default_settings = {'LOG ENABLED': False} 
def run(self, args, opts): 


print("hello") 





当 在 settings.py 文件 中 添 
加 COMMANDS_MODULE='properties.hi' 时 ， 就 激活 了 这 个 小 命令 ， 
我 们 可 以 在 Scrapy 帮 助 中 看 到 它 ， 并 且 通 过 scrapy hi 运行 。 在 命令 的 
default_settings 中 定义 的 设置 ， 会 被 合并 到 项 目的 设置 当中 ， 并 禾 








盖 默 认 值 ， 不 过 其 优先 级 低 于 settings.py 文件 或 命令 行 中 设 定 的 设 
Fo 


Scrapy(# FH -_ BASE 字典 (比如 FEED_EXPORTERS_BASE ) 存储 不 同 
框架 扩展 的 默认 值 ， 并 允许 我 们 在 settings .py 文件 或 命令 行 中 ， 通 
过 设置 它们 的 非 -_BASE 版 本 (比如 FEED_EXPORTERS ) 进行 自 定 义 。 


最 后 ，Scrapy 使 用 DOWNLOADER 、SCHEDULER 等 设置 ， 保 存 系统 基 
本 组 件 的 包 / 类 名 。 我 们 可 以 继承 默认 的 下 载 器 
(scrapy.core.downloader.Downloader ) ， 重 载 一 些 方法 ， 然 后 
将 DONNLOADER 设置 为 自 定义 的 类 。 这 样 可 以 让 开发 者 大 胆 地 对 新 特性 
进行 实验 ， 并 且 可 以 简化 自动 化 测试 过 程 ， 不 过 除非 你 明确 了 解 自己 做 
的 事情 ， 人 否则 不 要 轻易 修改 这 些 设置 。 





7.3.3 下载 调 优 


RETRY_* 、REDIRECT_* 以 及 METAREFRESH_* 设置 分 别 用 于 配置 
重 试 、 重 定向 以 及 元 刷新 中 间 件 。 例 如 ， 
将 REDIRECT_PRIORITY_ADJUST 设 为 2， 意 味 着 每 次 发 生 重 定向 时 ， 新 
请 求 将 会 在 所 有 非 重 定向 请 求 完 成 服务 后 才 会 被 调度 ; 而 
将 REDIRECT_MAX_TIMES 设置 为 20， 则 表示 在 执行 20 次 重 定向 后 ， 下 载 
器 将 会 放弃 尝试 ， 并 返回 目前 所 见 到 的 内 容 。 这 些 设置 在 仆 取 一 些 运行 
不 太 正 常 的 网 站 时 非常 有 用 ， 不 过 在 大 多 数 情况 下 ， 默 认 值 已 经 可 以 提 
供 很 好 的 服务 了 。 它 同样 也 适用 于 HTTPERROR_ALLOWED_CODES 以 及 
URLLENGTH_LIMIT 。 

















7.3.4” 目 动 限 速 扩展 设置 








AUTOTHROTTLE_* 设置 用 于 局 用 并 配置 自动 限 速 扩展 。 虽 然 对 它 有 
很 大 期 望 ， 但 从 实践 来 看 ， 我 发 现 它 往往 有 些 保守 ， 不 容易 调整 。 它 使 
用 下 载 延 迟 ， 来 了 解 我 们 和 目标 服务 器 的 负载 情况 ， 并 据 此 调整 下 载 器 
的 延迟 。 如 果 你 很 难 找到 DONNLOAD_DELAY 的 最 佳 值 默认 为 0) ， 就 
会 发 现 该 模块 很 有 用 。 


7.3.5 ”内 存 使 用 扩展 设置 


MEMUSAGE_* 设置 用 于 启用 并 配置 内 存 使 用 扩展 。 当 超出 内 存 限制 
时 ， 将 会 关闭 爬虫 。 当 运行 在 共享 环境 时 ， 该 设置 非常 有 用 ， 因 为 此 时 
需要 非常 礼貌 的 行为 。 大 多 数 情况 下 ， 你 可 能 会 发 现 它 只 有 在 接收 报警 
邮件 时 才 会 有 用 ， 此 时 我 们 需要 将 MEMUSAGE_LIMIT_MB 设置 为 0， 禁 用 
关闭 不 虫 的 功能 。 该 扩展 只 在 类 UNIX 平 台 上 适用 。 





MEMDEBUG_ENABLED 和 MEMDEBUG_NOTIFY 用 于 启用 并 配置 内 存 调 
试 扩展 ， 在 不 虫 关闭 时 打印 出 仍然 存活 的 引用 数量 。 总 之 ， 妃 踩 内 存 泄 
露 不 是 一 件 简单 而 有 趣 的 事情 (好 吧 ， 它 还 是 有 一 些 乐趣 的 ) 。 我 们 可 
以 阅读 Debugging memory leaks with trackref 这 篇 优秀 的 文档 ， 了 人 解 更 多 
内 存 泄 露 排 查 的 方法 ， 不 过 最 重要 的 建议 是 ， 保 持 你 的 候 虫 相对 简短 、 
批量 处 理 ， 并 且 需 要 根据 服务 器 的 能 力 运行 。 我 认为 没有 什么 好 的 理由 
可 以 让 我 们 批量 运行 超过 几 千 页 或 几 分 钟 。 


7.3.6 日 志和 调试 


最 后 ， 还 有 一 些 日 志和 调试 功能 。L0G_ENCODING 
、L0G_DATEFORMAT 和 LOG_FORMAT 可 以 用 来 调整 日 志 格 式 ， 当 准备 使 
用 日 志 管 理解 决 方案 时 (比如 Splunk、Logstash 和 Kibana〉， 会 发 现 这 


些 设置 非常 有 用 。DUPEFILTER_DEBUG 和 COOKIES DEBUG 将 会 帮助 你 
调试 相对 复杂 的 情况 ， 比 如 得 到 的 请 求 数 少 于 预期 或 会 话 意外 丢失 。 





74 本 章 小 结 


通过 阅读 本 章 ， 我 相信 和 与 从 头 开 始 编写 爬虫 相 比 ， 你 能 体会 到 使 用 
Scrapy 功 能 所 市 来 的 深度 和 广度 。 如 果 你 想 调整 或 扩展 Scrapy 的 功能 ， 
可 以 有 很 多 选项 ， 我 们 将 会 在 下 一 章 中 看 到 它们 。 


第 8 章 ”Scrapy 编 程 





到 目前 为 上 ， 我 们 编写 的 爬虫 主要 用 于 定义 不 取 数 据 源 的 方式 以 及 
如 何 从 中 抽取 信息 。 除 了 扑 虫 外 ，Scrapy 还 提供 了 能 够 调整 其 大 多 数 方 
面 功能 的 机 制 。 比 如 ， 你 可 能 会 发 现 自己 经 常 在 处 理 如 下 的 一 些 问题 。 


1. 你 需要 从 同一 个 项 目的 其 他 不 虫 中 复制 、 粘 贴 大 量 人 代码。 重复 
的 代码 与 数据 更 加 相关 《〈 比 如， 执行 字段 计算 ) ， 而 不 是 数据 源 。 


2. 你 需要 编写 脚本 ， 对 Item 进行 后 处 理 ， 执 行 像 删 除 重复 条 目 或 
后 置 处 理 值 的 事情 。 





3. 你 在 不 同 的 项 目 中 有 重复 的 代码 ， 用 于 处 理 基 础 架构 。 比 如 ， 
你 可 能 需要 登录 并 向 专 有 仓库 传输 文件 ， 同 数据 库 中 添加 Item RENE 
虫 执 行 完成 时 触发 后 置 处 理 操作 。 

















4. 你 发 现 Scrapy 的 某 个 方面 与 你 希望 的 功能 并 不 完全 一 致 ， 你 想 
在 自己 的 大 部 分 项 目 中 使 用 自 定 义 或 变通 的 方案 。 


Scrapy 开 发 者 所 设计 的 架构 ， 能 够 为 我 们 解决 这 些 常 见 的 问题 。 我 
们 将 会 在 本 章 后 续 部 分 研究 该 架构 。 不 过 我 们 首先 介绍 支持 Scrapy 的 引 
擎 ， 该 引擎 叫 作 Twisted 。 


8.1 Scrapy 是 一 个 Twisted 应 用 


Scrapy 是 一 个 内 置 使 用 了 Python 的 Twisted 框 架 的 抓 取 应 用 。Twisted 
确实 有 些 与 众 不 同 ， 因 为 它 是 事件 驱动 的 ， 并 且 辟 励 我 们 编写 异步 代 
码 。 习 惯 它 需要 一 些 时 间 ， 不 过 我 们 将 通过 只 学 习 和 Scrapy 有 关 的 部 
分 ， 从 而 让 任务 变 得 相对 简单 一 些 。 我 们 还 可 以 在 错误 处 理 方 面 轻松 一 
些 。GitHub 上 的 完整 代码 会 有 更 加 彻底 的 错误 处 理 ， 不 过 在 本 书 中 将 名 
略 该 部 分 。 








让 我 们 从 头 开 始 。Twisted 与 众 不 同 是 因为 它 的 主要 口号 。 


在 任何 情况 下 ， 都 不 要 编写 阻塞 的 代码 。 









































代码 阻 豆 的 影响 很 严重 ， 而 可 能 造成 代码 阻塞 的 原因 包括 : 


。 代码 需要 访问 文件 、 数 据 库 或 网 络 ; 
。 代码 需要 派生 新 进程 并 消费 其 输出 ， 比 如 运行 shell 命 令 ; 
。 代码 需要 执行 系统 级 操作 ， 比 如 等 竺 系统 队列 。 


Twisted 提 供 的 方法 允许 我 们 执行 上 述 所 有 操作 甚至 更 多 操作 时 ， 
无 需 再 阻塞 代码 执行 。 


为 了 展示 两 种 方式 的 不 同 ， 我 们 假设 有 一 个 典型 的 同步 抓 取 应 用 
〈 见 图 8.1)》 。 假 设 该 应 用 包含 4 个 线程 ， 并 且 在 一 个 给 定 的 时 刻 ， 其 中 
3 个 线程 处 于 阻塞 状态 ， 用 于 等 待 啊 应 ， 而 兄 一 个 线程 被 阻塞 ， 用 于 执 
行 数据 库 写 访问 以 保存 Item 。 在 任何 给 定时 刻 ， 很 有 可 能 无 法 找到 抓 








取 应 用 的 一 个 执行 其 他 事情 的 线程 ， 只 能 等 竺 一 些 阻塞 操作 完成 。 当 阻 
穴 操 作 完成 时 ， 一 些 计算 操作 可 能 占用 几 微 秒 ， 然 后 线程 再 次 极 阻 竖 ， 
执行 其 他 阻 蹇 操作 ， 这 很 可 能 持续 至 少 几 昌 秒 的 时 间 。 总 体 来 说 ， 服 务 
右 不 会 是 空间 的， 因为 它 运 行 了 几 十 个 应 用 程序 ， 并 使 用 了 上 干 个 线 

程 ， 因 此 ， 在 一 些 细致 的 调 优 后 ，CPU 才 能 够 合理 利用 。 








多 线程 (4 线程 ) : 


_~ 线程 1: 在 Web 请 求 妇 30 上 被 阳 塞 
线程 2: 在 数据 库 访问 #70 上 被 阻塞 


gi 线程 3: 在 Web 请 求 #330 上 被 阻塞 
oa 

y 线程 4: 在 Web 请 求 妇 12 上 被 阻塞 
tee ae 


Twisted (1 线程 ) : 
yP 线程 1: 被 阻塞 ， 等 待 资源 变 为 可 用 的 
一 一 一 一 








图 8.1 多 线程 代码 和 Twisted 异 步 代码 的 对 比 


Twisted/Scrapy 的 方式 更 倾 回 于 尽 可 能 使 用 单线 程 。 它 使 用 现代 操 
作 系 统 的 1/O 复 用 功能 (参见 select() 、pol1() 和 epol1() ) 作为 “ 挂 
起 器 ”。 在 通常 会 有 阻塞 操作 的 地 方 ， 比 如 result = i_block()， 
Twisted 提 供 了 一 个 可 以 立即 返回 的 替代 实现 。 不 过 ， 它 并 不 是 返回 真 
实 值 ， 而 是 返回 一 个 hook， 比 如 deferred = i_dont_block(), ， 在 这 





里 可 以 挂 起 任何 想 要 运行 的 功能 ， 而 不 用 管 什 么 时 候 返 回 值 可 用 〈 比 
如 ，deferred.addCallback(process_result) ) . —~TwistedhY 
用 是 由 一 组 此 类 延迟 运行 的 操作 组 成 的 。Twisted 唯 一 的 主线 程 被 称 为 
Twisted 事 件 反 应 器 线程 ， 用 于 监控 挂 起 器 ， 等 竺 某 个 资源 变 为 可 用 
(比如 ， 服 务 器 返回 响应 到 我 们 的 Request 中 ) 。 当 该 事件 发 生 时 ， 将 
会 触发 链 中 最 前 面 的 延迟 操作 ， 执 行 一 些 计 算 ， 然 后 依次 触发 下 面 的 操 
作 。 部 分 延迟 操作 可 能 会 引发 进一步 的 IO 操作 ， 这 样 就 会 造成 延迟 操 
作 链 回 到 挂 起 器 中 ， 如 果 可 能 的 话 ， 还 会 释放 CPU 以 执行 其 他 功能 。 由 
于 我 们 使 用 的 是 单线 程 ， 因 此 不 会 存在 额外 线程 所 需 的 上 下 文 切 换 以 及 
保存 资源 (如 内 存 〉， 所 带 来 的 开销 。 也 就 是 说 ， 我 们 使 用 该 非 阻 窄 架构 
时 ， 只 需 一 个 线程 ， 束 能 达到 类 似 使 用 数 干 个 线程 才能 达到 的 性 能 。 


坦率 地 说 ， 操 作 系 统 开 发 人 员 花 费 了 数 十 年 的 时 间 优 化 线程 操作 ， 
以 使 它们 速度 更 快 。 性 能 的 争论 没有 以 前 那么 强烈 了 。 有 一 件 大 家 都 认 
同 的 事情 是 ， 为 复杂 应 用 编写 正确 的 线程 安全 代码 非常 困难 。 当 你 克服 
考虑 延迟 /回调 所 带 来 的 最 初 冲 击 后 ， 会 发 现 Twisted 代 码 要 比 多 线程 代 
人 码 简 单 得 多 。inlineCallbacks 生成 器 工具 使 得 代码 更 加 简单 ， 我 们 


将 会 在 后 续 章节 进一步 讨论 它 。 














可 以 说 ， 到 目前 为 止 ， 最 成 功 的 非 阻 塞 /O 系 统 是 Node.js， 主 要 是 因为 























它 以 高 性 能 和 并 发 性 作为 出 发 点 ， 没 有 人 去 争论 这 是 好 事 还 是 坏事 。 每 个 
Node.js 应 用 都 只 用 非 阻 塞 API。 在 Java 的 世界 里 ，Netty 可 能 是 最 成 功 的 NIO 
框架 驱动 应 用 ， 比 如 Apache Storm 和 Spark。C++ 11 的 std: :future 和 
std::promise (与 延迟 操作 非常 类 似 ) 通过 使 用 libevent 或 纯 POSIX 这 些 
库 ， 使 得 编写 异步 代码 更 加 简单 。 






























































| 
8.1.1 延迟 和 延迟 链 
延迟 机 制 是 Twisted 提 供 的 最 基础 的 机 制 ， 能 够 帮助 我 们 编写 异步 


代码 。Twisted API 使 用 延迟 机 制 ， 多 许 我 们 定义 发 生 东 些 事件 时 所 采取 
的 动作 序列 。 下 面 让 我 们 具体 看 一 下 。 


A 
你 可 以 从 GitHub 上 获取 本 书 的 全 部 源 代码 。 如 果 想 要 下 载 本 书 代 码 ， 可 
以 使 用 git clone https://github.com/ scalingexcellence/scrapybook 





本 章 的 完整 代码 在 che8 目录 中 ， 其 中 本 示例 的 代码 
在 che8/deferreds.py 文件 中 ， 你 可 以 使 用 ./deferreds.py 8 运行 该 代 
码 。 





可 以 使 用 Python 控 制 台 运行 如 下 的 交互 式 实验 。 





$ python 


>>> from twisted.internet import defer 


>>> # Experiment 1 


>>> d = defer.Deferred() 


>>> d.called 


False 


>>> d.callback(3) 


>>> d.called 


True 


>>> d.result 





可 以 看 到 ，Deferred 本 质 上 代表 的 是 一 个 无 法 立即 获取 的 值 。 当 
触发 d 时 (调用 其 callback 方法 ) ， 其 called 状态 变 为 True ， 
而 result 属性 被 设置 为 在 回调 方法 中 设 定 的 值 。 





>>> # Experiment 2 


>>> d = defer.Deferred() 


>>> def foo(v): 


print "foo called" 


return v+1 


>>> d.addCallback(foo) 


<Deferred at Ox7f...> 


>>> d.called 


False 


>>> d.callback(3) 


foo called 


>>> d.called 


True 


>>> d.result 





延迟 机 制 最 强大 的 功能 就 是 可 以 在 设 定 值 时 串联 其 他 要 被 调用 的 操 
作 。 在 上 面 的 例子 中 ， 添 加 了 一 个 foo() 函数 作为 d 的 回调 函数 。 当 通 
过 调用 callback(3) 触发 d 时 ， 会 调用 函数 foo() ， 打 印 消息 ， 并 将 其 
返回 值 设 为 d 最 终 的 result 值 。 





>>> # Experiment 3 


>>> def status(*ds): 


return [(getattr(d, 'result', "N/A"), len(d.callbacks)) for d in 


ds] 


>>> def b_callback(arg): 


print "b_callback called with arg =", arg 


return b 


>>> def on_done(arg): 


print "on_done called with arg =", arg 


return arg 


>>> # Experiment 3.a 


>>> a 


defer .Deferred() 


>>> b = defer.Deferred() 


>>> a.addCallback(b_callback).addCallback(on_done) 


>>> status(a, b) 


[C'N/A', 2), ('N/A', @)] 


>>> a.callback(3) 


b_callback called with arg = 3 


>>> status(a, b) 


[(<Deferred at @x10e7209e@>, 1), ('N/A', 1)] 


>>> b.callback(4) 


on_done called with arg = 4 


>>> status(a, b) 


[(4, ©), (None, @)] 








该 示例 展示 了 更 加 复杂 的 延迟 行为 。 我 们 看 到 该 示例 中 有 一 个 普通 
的 延迟 a ， ae te 不 过 这 次 它 有 两 个 回调 方法 。 第 
一 个 是 b_callback() ， 返 回 值 是 另 一 个 延迟 b ， 而 不 是 一 个 值 。 第 二 

是 on_done() 打印 函数 。 我 们 还 有 一 个 status() 函数 ， 用 于 打印 延 
oe eae ae 得 到 了 相同 的 状态 : [C'N/A', 
2), ('N/A', @)] ， 这 意味 着 两 个 延迟 都 还 没有 被 触发 ， 并 且 第 一 个 
延迟 有 两 个 回调 ， 而 第 二 个 没有 回调 。 然 后 ， 当 触发 第 一 个 延迟 时 ， 我 
们 得 到 了 一 个 奇怪 的 [(<Deferred at @x10e7209e0>, 1), ('N/A', 
1)] 状态 ， 可 以 看 出 现在 a 的 值 是 一 个 延迟 《实际 上 就 是 p HEIR) ， 并 
且 目 前 它 还 有 一 个 回调 ， 这 种 情况 是 合理 的 ， 因 为 b_callback() 已 经 
被 调用 ， 只 剩 下 了 on_done() 。 意 外 的 情况 是 现在 b 也 包含 了 一 个 回 
调 。 实 际 上 是 在 后 台 注 册 了 一 个 回调 ， 一 旦 触发 b ， 就 会 更 新 它 的 值 。 
当 其 发 生 时 ，on_done() 依然 会 被 调用 ， 并 且 最 终 状 态 会 是 [(4，68)， 
(None，6)] ， 和 我 们 预期 的 一 样 。 








>>> # Experiment 3.b 


>>> a = defer.Deferred() 


>>> b = defer.Deferred() 


>>> a.addCallback(b_callback).addCallback(on_done) 


>>> status(a, b) 


[('N/A', 2), ('N/A', @)] 


>>> b.callback(4) 


>>> status(a, b) 


[('N/A', 2), (4, @)] 


>>> a.callback(3) 


b_callback called with arg = 3 


on_done called with arg = 4 


>>> status(a, b) 


[(4, ©), (None, @)] 





而 另 一 方面 ， 如 果 像 Experiment3 .b Pras, b 先 于 a 被 触发 ， 状 态 将 
SARALC'N/A', 2), (4, @)], Alaa 被 触发 时 ， 两 个 回调 都 会 被 
调用 ， 最 终 状 态 与 之 前 一 样 。 有 意思 的 是 ， 不 管 顺序 如 何 ， 最 终结 果 都 





征 相同 的 。 两 个 例子 唯一 的 不 同 是 ， 在 第 一 个 例子 中 ，b 值 保持 延迟 的 
时 间 更 长 一 些 ， 因 为 它 是 第 二 个 被 触及 的 ， 而 在 第 二 个 例子 中 ，b 首先 
被 触及 ， 并 且 从 该 时 刻 起 ， 它 的 值 就 会 在 需要 时 被 立即 使 用 。 











此 时 ， 你 应 该 已 经 对 什么 是 延 人 运 、 它 们 是 如 何 串 联 起 来 表示 尚 不 可 
用 的 值 ， 有 了 不 错 的 理解 。 我 们 将 通过 第 4 个 例子 结束 这 一 部 分 的 研 
究 ， 在 该 示例 中 ， 将 展示 如 何 触发 依赖 于 多 个 其 他 延 运 的 方法 。 在 
Twisted 的 实现 中 ， 将 会 使 用 defer.DeferredList 类 。 





>>> # Experiment 4 


>>> deferreds = [defer.Deferred() for i in xrange(5)] 


>>> join = defer.DeferredList(deferreds) 


>>> join.addCallback(on_done) 


>>> for i in xrange(4): 


deferreds[i].callback(i) 


>>> deferreds[4].callback(4) 


on_done called with arg = [(True, ©), (True, 1), (True, 2), 


(True, 3), (True, 4)] 





可 以 注意 到 ， 尽 管 for 循环 语句 只 触发 了 5 个 延迟 中 的 4 
个 ，on_done() 仍然 需要 等 到 列表 中 所 有 延迟 都 被 触发 后 才 会 调用 ， 也 
就 是 说 ， 要 在 最 后 的 deferreds[4].callback() 之 后 调 
用 。on_done() 的 参数 是 一 个 元 组 组 成 的 列表 ， 每 个 元 组 对 应 一 个 延 
迟 ， 其 中 包含 两 个 元 素 ， 分 别 是 表示 成 功 的 True 或 表示 失败 的 False 
， 以 及 延迟 的 值 。 


8.1.2 ”理解 Twisted 和 非 阻塞 IO 一 一 一 个 Python 故事 





既然 我 们 已 经 掌握 了 原 语 ， 接 下 来 让 我 告诉 你 一 个 Python 的 小 故 
事 。 该 故事 中 所 有 人 物 均 为 虚构 ， 如 有 雷同 纯 属 巧 合 。 








# ~*~ Twisted - A Python tale ~*~ 


from time import sleep 


# Hello, I'm a developer and I mainly setup Wordpress . 
def install wordpress(customer): 
# Our hosting company Threads Ltd. is bad. I start installation and... 
print "Start installation for", customer 
# ...then wait till the installation finishes successfully. It is 
# boring and I'm spending most of my time waiting while consuming 
# resources (memory and some CPU cycles). It's because the process 
# is *blocking*. 
sleep(3) 


print "All done for", customer 


# I do this all day long for our customers 
def developer_day(customers): 
for customer in customers: 
install _wordpress(customer ) 


developer_day(["Bill", "Elon", "Steve", "Mark"]) 





运行 该 代码 。 


$ ./deferreds.py 1 

Running example 1 
Start installation for Bill 
All done for Bill 
Start installation 


* Elapsed time: 12.03 seconds 





我 们 得 到 的 是 顺序 的 执行 。4 位 客户 ， 每 人 执行 3 秒 ， 意 味 着 总 共 需 
要 12 秒 的 时 间 。 这 种 方式 的 扩展 性 不 是 很 好 ， 因 此 我 们 将 在 第 二 个 例子 
中 添加 多 线程 。 














import threading 


# The company grew. We now have many customers and I can't handle 
the 

# workload. We are now 5 developers doing exactly the same thing. 
def developers_day(customers): 


# But we now have to synchronize... a.k.a. bureaucracy 
lock = threading.Lock() 
# 


def dev_day(id): 
print "Goodmorning from developer", id 


# Yuck - I hate locks... 
lock.acquire() 
while customers: 
customer = customers.pop(@) 
lock.release() 
# My Python is less readable 
install _wordpress(customer ) 
lock. acquire() 
lock.release() 
print "Bye from developer", id 
# We go to work in the morning 
devs = [threading.Thread(target=dev_day, args=(i,)) for i in 
range(5) ] 
[dev.start() for dev in devs] 
# We leave for the evening 
[dev.join() for dev in devs] 


# We now get more done in the same time but our dev process got more 

# complex. As we grew we spend more time managing queues than doing dev 
# work. We even had occasional deadlocks when processes got extremely 

# complex. The fact is that we are still mostly pressing buttons and 

# waiting but now we also spend some time in meetings. 

developers _day(["Customer %d" % i for i in xrange(15)]) 





Sey 


按照 下 述 方式 运行 这 段 代码 。 





$ ./deferreds.py 2 


Goodmorning from developer @Goodmorning from developer 


1Start installation forGoodmorning from developer 2 


Goodmorning from developer 3Customer 6 


from developerCustomer 13 3Bye from developer 2 


* Elapsed time: 9.02 seconds 





在 这 段 代 码 中 ， 使 用 了 5 个 线程 并 行 执行 。15 个 客户 ， 每 人 3 秒 ， 总 
共 需 要 执行 45 秒 ， 而 当 使 用 5 个 并 行 的 线程 时 ， 最 终 只 花费 了 9 秒 钟 。 不 
过 代码 有 些 难 看 。 现 在 代码 的 一 部 分 只 用 于 管理 并 发 性 ， 而 不 是 专注 于 
算法 或 业务 逻辑 。 为 外 ， 输 出 也 变 得 混乱 并 且 可 读 性 很 差 。 即 使 是 让 很 





简单 的 多 线程 代码 正确 运行 ， 也 有 很 大 难度 ， 因 此 我 们 将 转 为 使 用 


Twisted. 





# For years we thought this was all there was... We kept hiring more 
# developers, more managers and buying servers. We were trying harder 
# optimising processes and fire-fighting while getting mediocre 

# performance in return. Till luckily one day our hosting 

# company decided to increase their fees and we decided to 

switch to Twisted Ltd.! 

from twisted.internet import reactor 

from twisted.internet import defer 

from twisted.internet import task 


+ 


# Twisted has a slightly different approach 
def schedule _install(customer): 
# They are calling us back when a Wordpress installation completes. 
# They connected the caller recognition system with our CRM and 
# we know exactly what a call is about and what has to be done 
# next. 
# 
# We now design processes of what has to happen on certain events. 
def schedule _install_wordpress(): 
def on_done(): 
print "Callback: Finished installation for", customer 
print "Scheduling: Installation for", customer 
return task.deferLater(reactor, 3, on_done) 
# 
def all _done(_): 
print "All done for", customer 


# 

# For each customer, we schedule these processes on the CRM 
# and that 

# is all our chief-Twisted developer has to do 

d = schedule _install_wordpress() 

d.addCallback(all_done) 


return d 


# Yes, we don't need many developers anymore or any synchronization. 
# ~~ Super-powered Twisted developer ~~ 
def twisted_developer_day(customers): 

print "Goodmorning from Twisted developer" 

# 

# Here's what has to be done today 

work = [schedule_install(customer) for customer in customers] 


# Turn off the lights when done 
join = defer.DeferredList (work) 
join.addCallback(lambda _: reactor.stop()) 
# 
print "Bye from Twisted developer!" 
# Even his day is particularly short! 
twisted _developer_day(["Customer %d" % i for i in xrange(15)]) 


# Reactor, our secretary uses the CRM and follows-up on events! 
reactor.run() 





现在 运行 该 代码 。 





$ ./deferreds.py 3 


Goodmorning from Twisted developer 


Scheduling: Installation for Customer 6 


Scheduling: Installation for Customer 14 


Bye from Twisted developer! 


Callback: Finished installation for Customer 6 


All done for Customer @ 


Callback: Finished installation for Customer 1 


All done for Customer 1 


All done for Customer 14 


* Elapsed time: 3.18 seconds 











此 时 ， 我 们 在 没有 使 用 多 线程 的 情况 下 ， 就 获得 了 民 好 运行 的 代 
码 ， 以 及 漂亮 的 输出 结果 。 我 们 并 行 处 理 了 所 有 的 15 位 客户 ， 也 就 是 
说 ， 应 当 执 行 45 秒 的 计算 只 花费 了 3 秒 钟 ! 技巧 就 是 将 所 有 阻塞 调用 的 
sleep() 替换 为 Twisted 对 应 的 task.deferLater() 以 及 回调 函数 。 由 
于 处 理 现在 发 生 在 其 他 地 方 ， 因 此 可 以 谍 不 费力 地 同时 为 15 位 客户 服 
务 。 





刚才 提 到 前 面 的 处 理 此 时 是 在 其 他 地 方 执 行 的 。 这 是 在 作 浆 吗 ? 答案 当 
然 不 是 。 算 法 计算 仍然 在 CPU 中 人 处理， 不 过 与 磁盘 和 网 络 操作 相 比 ，CPU 操 
作 速 度 很 快 。 因 此 ， 将 数据 传 给 CPU、 从 一 个 CPU 发 送 或 存储 数据 到 另 一 个 
CPU 中 ， 占 据 了 大 部 分 时 间 。 我 们 使 用 非 阻塞 的 MO 操作 ， 为 CPU 省 了 这 
些 时 间 。 这 些 操 作 ， 尤 其 是 像 task.deferLater() 这 样 的 操作 ， 会 在 数据 
传输 完成 后 触发 回调 函数 。 






























































另 一 个 需要 非常 注意 的 地 方 是 Goodmorning from Twisted 
developer 以 及 Bye from Twisted developer! 消息 。 在 代码 启动 


时 ， 它 们 就 都 被 立即 打印 了 出 来 。 如 果 代码 过 早 地 到 达 该 点 ， 那 么 应 用 
实际 是 什么 时 候 运 行 的 呢 ? 答案 是 Twisted 应 用 (包括 Scrapy)〉 完全 运行 
在 reactor.run() E! 当 调 用 该 方法 时 ， 必 须 拥 有 应 用 程序 预期 使 用 
的 所 有 可 能 的 延迟 链 《〈 相 当 于 前 面 故 事 中 建立 CRM 系 统 的 步骤 和 流 
fe) 。 你 的 reactor.Frun() 《故事 中 的 秘书 ) 执行 事件 监控 以 及 触发 
回调 。 


reactor 的 主要 规则 是 : 只 要 是 快速 的 非 阻塞 操作 就 可 以 做 任何 事 。 











非常 好 ! 不 过 虽然 代码 没有 了 多 线程 时 的 混乱 输出 ， 但 是 这 里 的 回 
调 函 数 还 是 有 一 些 难看 ! 因此 ， 我 们 将 引入 下 一 个 例子 。 


# Twisted gave us utilities that make our code way more readable! 
@defer.inlineCallbacks 
def inline_install(customer): 

print "Scheduling: Installation for", customer 

yield task.deferLater(reactor, 3, lambda: None) 

print "Callback: Finished installation for", customer 

print "All done for", customer 


def twisted_developer_day(customers): 
. same as previously but using inline_install() 
instead of schedule _install() 


twisted _developer_day(["Customer %d" % i for i in xrange(15)]) 
reactor.run() 





以 如 下 方式 运行 该 代码 。 


$ ./deferreds.py 4 


.. exactly the same as before 





述 代码 和 之 前 那个 版 本 的 代码 看 起 来 基本 一 样 ， 不 过 更 加 优 
FEE sea ke Maes Pods aa 
inline_install() 的 代码 能 够 暂停 和 恢复 。inline_install() 变 为 
延迟 函数 ， 并 且 为 每 位 客户 并 行 执 行 。 每 当 执行 yield 时 ， 执 行 会 在 当 
前 的 ijnline_install() 实例 上 暂停 ， 当 yield 的 延迟 函数 触发 时 再 恢 
复 。 





现在 唯一 的 问题 是 ， 如 果 不 是 只 有 15 个 客户 ， 而 是 10000 个 ， 该 代 
码 会 无 耻 地 同时 启动 10000 个 处 理 序 列 ( 调 用 HTTP 请 求 、 数 据 库 写 操作 
SE) 。 这 样 可 能 会 正常 运行 ， 也 可 能 造成 各 种 各 样 的 失败 。 在 大 规模 并 
发 应 用 中 ， 比 如 Scrapy， 一 般 需 要 将 并 发 量 限 制 到 可 接受 的 水 平 。 在 本 
例 中 ， 可 以 使 用 task.Cooperator() 实现 该 限制 。Scrapy 使 用 了 同样 
的 机 制 在 item 处 理 管 道中 限制 并 发 量 (CONCURRENT_ITEMS 设置 ) 。 


@defer.inlineCallbacks 
def inline install(customer): 





same as above 


# The new "problem" is that we have to manage all this concurrency to 
# avoid causing problems to others, but this is a nice problem to have. 
def twisted_developer_day(customers): 

print "Goodmorning from Twisted developer" 

work = (inline_install(customer) for customer in customers) 

# 

# We use the Cooperator mechanism to make the secretary not 

# service more than 5 customers simultaneously. 

coop = task.Cooperator() 

join = defer.DeferredList([coop.coiterate(work) for i in xrange(5)]) 

# 

join.addCallback(lambda _: reactor.stop()) 

print "Bye from Twisted developer!" 


twisted _developer_day(["Customer %d" % i for i in xrange(15)]) 
reactor.run() 


# We are now more lean than ever, our customers happy, our hosting 
# bills ridiculously low and our performance stellar. 


# ~*~ THE END ~*~ 





运行 该 代码 。 





$ ./deferreds.py 5 


------ Running example 5 ------ 


Goodmorning from Twisted developer 


Bye from Twisted developer! 


Scheduling: Installation for Customer 6 


Callback: Finished installation for Customer 4 


All done for Customer 4 


Scheduling: Installation for Customer 5 


Callback: Finished installation for Customer 14 


All done for Customer 14 


* Elapsed time: 9.19 seconds 





可 以 看 到 ， 现 在 有 类 似 于 5 个 客户 的 处 理 槽 。 如 果 想 要 处 理 一 个 新 
的 客户 ， 只 有 在 存在 空 槽 时 才 可 以 开始 ， 实 际 上 ， 在 这 个 例子 中 客户 处 





理 的 时 间 总 是 相同 的 〈3 秒 ) ， 因 此 会 造成 5 位 客户 会 在 同一 时 间 被 批量 
处 理 的 情况 。 最 后 ， 我 们 得 到 了 和 多 线程 示例 中 相同 的 性 能 ， 不 过 现在 
只 使 用 了 一 个 线程 ， 代 码 更 加 简单 并 且 更 容易 正确 编写 。 





祝 站 你 ， 坦 白地 说 ， 现 在 你 得 到 了 对 于 Twisted 和 非 阻塞 VO 编 程 的 
一 份 非常 严谨 的 介绍 。 


8.2 ”Scrapy 架 构 概 述 


图 8.2 所 示 为 Scrapy 的 架构 。 


process_spider_input() process_item() open_spider() 
i = close_spider() 


Spider(s) 


process_spider_output() 


| 
Spider 中 固件 


process_spider_ exception() 


process_start_requests() 








process _request() 


= 


process_response() 扩展 
process_exception() 





图 8.2 ”Scrapy 架 构 


你 可 能 已 经 注意 到 ， 该 架构 运行 在 我 们 熟悉 的 三 类 对 象 之 
E: Request, Response 以 及 Item 。 我 们 的 息 虫 就 在 架构 的 核心 位 
置 ， 它 们 创建 Request ， 处 理 Response ， 生 成 Item 和 更 多 的 Request 


o 


fe HAE RRA ANI tem 都 使 用 其 process_item() 方法 由 Item 管 道 
序列 执行 后 置 处 理 。 通 常情 况 下 ，process_item() 会 修改 Item ， 然 
后 以 返回 这 些 Item 的 方式 将 其 传 给 后 续 的 管道 。 有 时 候 《〈“ 比 如 元 余 或 
非法 数据 的 情况 ) ， 我 们 可 能 需要 放弃 一 个 Item， 此 时 可 以 通过 抛 出 
DropItem 异常 的 方式 实现 。 这 种 情况 下 ， 后 续 的 管道 将 不 会 再 接收 该 
Item。 如 果 我 们 提供 了 open_spider() 和 / 或 close_spider() Wik, 





那么 爬虫 会 对 应 地 在 开始 和 结束 爬虫 时 调用 该 方法 。 这 里 是 我 们 进行 初 
始 化 和 清理 工作 的 时 机 。Item 管 道 通常 用 于 执行 问题 域名 或 基础 结构 的 
操作 ， 比 如 清理 数据 、 辐 数据 库 插入 Item 等 。 你 还 会 发 现 目 己 会 在 项 
目 之 间 很 大 程度 地 复 用 它们 ， 尤 其 是 当 处 理 基础 架构 细节 时 。 第 4 章 中 
使 用 过 的 Appery.io 管 道 ， 即 通过 少量 配置 上 传 Item 到 Appery.io 的 工 
作 ， 就 是 用 Item 管 道 执 行 基础 架构 工作 的 一 个 例子 。 











PO I as SNE iRequest ， 并 得 到 返回 的 Response ， 来 进 
行 工 作 。Scrapy 以 透明 的 方式 负责 Cookie、 权 限 认 证 、 绥 存 等 ， 我 们 所 
需要 做 的 就 是 偶尔 调整 一 些 设置 。 这 其 中 大 部 分 功能 是 在 下 载 器 中 间 件 
中 实现 的 。 它 们 通常 都 非常 复杂 ， 在 处 理 Request/Response 内 部 构件 
时 有 着 很 高 的 技巧 。 你 可 以 创建 自 定 义 的 中 间 件 ， 以 使 Scrapy 按 照 你 要 
求 的 方式 处 理 Request 。 通 常 ， 成 功 的 中 间 件 可 以 在 多 个 项 目 中 复 用 ， 
并 且 可 以 向 其 他 Scrapy 开 发 者 提供 有 用 的 功能 ， 因 此 同 社区 分 享 是 个 不 
错 的 选择 。 你 没有 必要 经 常 编写 下 载 嚣 中间 件 。 如 有 果 你 想 了 解 默 认 的 下 
载 器 中 间 件 ， 可 以 查看 Scrapy 的 Github 仓 库 中 
settings/default_settings.py 文件 的 
DOWNLOADER_MIDDLEWARES_BASE 设置 。 





下 载 右 是 真正 执行 下 载 的 引擎 。 除 非 你 是 Scrapy 的 代码 页 献 者 ， 人 否 
则 不 要 修改 它 。 





有 时 候 ， 你 可 能 需要 编写 爬虫 中 间 件 〈 见 图 8.3) 。 这 些 中 间 件 在 
候 虫 之 后 且 所 有 下 载 嚣 中间 件 之 前 处 理 Request ; 而 在 处 理 Response 
时 ， 则 是 相反 的 顺序 。 使 用 下 载 器 中 间 件 ， 可 以 做 很 多 事情 ， 比 如 重 写 
所 有 URL， 使 用 HITPS 代 蔡 HITP， 而 不 用 管 下 虫 从 页 面 中 抽取 出 来 的 





内 容 是 什么 。 它 可 以 实现 特定 于 项 目 需 求 的 功能 ， 并 分 享 给 所 有 的 扑 
虫 。 下 载 器 中 间 件 和 不 虫 中 间 件 最 主要 的 区 别 是 ， 当 下 载 器 中 间 件 获取 
一 个 Request 时 ， 只 会 返回 一 个 Response 。 而 爬虫 中 间 件 可 以 在 对 某 
些 Request 不 感 兴趣 时 舍弃 掉 它 们 ， 或 者 对 每 个 输入 的 Request 都 发 出 
多 个 Request ， 用 来 完成 你 的 应 用 程序 的 目标 。 可 以 说 爬虫 中 间 件 是 针 
对 Request 和 Response 的 ， 而 Item 管 道 是 针对 Item MW. MEH HAE TA 
样 也 接收 Item ， 不 过 通常 情况 下 不 会 对 其 进行 修改 ， 因 为 在 Item 管 首 
中 进行 这 些 操 作 更 加 容易 。 如 果 你 想 了 解 默 认 的 扑 虫 中 间 件 ， 可 以 在 
Scrapy 的 Git 上 查看 settings/default_settings.py 文件 的 
SPIDER_MIDDLEWARES_BASE 设置 。 


中 间 件 


+from_crawler(in crawler) 


+from_settings(in settings) z 
7X 7X A 下 载 器 中 间 件 


+process_request(in request, in spider) 
+process_response() 
+process_exception() 


不 虫 中 问 件 
+process_spider_input(in response, in spider) 
I +process_spider_output(in response, in result, in spider) 


+process_item(in item, in spider) | |*Process_spider_exception(in response, in exception, in spider) 
+open_spider(in spider) +process_start_requests(in start_requests, in spider) 





























+close_spider(in spider) 


图 8.3 ”中 间 件 架构 





最 后 还 有 一 个 部 分 是 扩展 。 扩 展 非常 第 见 ， 实 际 上 其 常见 程度 仅 次 
于 Item 管 道 。 它 们 是 在 仆 取 工作 启动 时 加 载 的 普通 类 ， 可 以 访问 设置 、 

















疏 虫 、 注 册 回 调 信和 号 以 及 定义 自己 的 信号 。 信 和 号 是 一 类 基础 的 Scrapy 
API， 它 可 以 让 回调 函数 在 系统 中 发 生 某 些 事情 时 进行 调用 ， 比 如 Item 
被 抓 取 、 丢 弃 时 或 不 虫 开局 时 。 有 很 多 非常 有 用 的 预定 义 信 号 ， 我 们 将 
会 在 后 边 见 到 其 中 的 一 部 分 。 某 种 意义 上 讲 ， 扩 展 有 些 博 而 不 精 ， 它 能 
够 让 你 号 出 任何 可 以 想到 的 工具 ， 但 又 无 法 给 你 实际 的 帮助 〈 比 如 像 
Item 管 道 的 process_item() 方法 ) 。 我 们 必须 将 其 hook 到 信号 上 ， 自 
ER 。 例 如 ， 在 达到 指定 页 数 或 Item 个 数 后 停止 讨 取 ， 束 
通过 扩展 实现 的 。 如 果 想 要 了 人 解 默认 的 扩展 ， 可 以 从 Scrapy 的 Git 上 但 
Se .py 文件 的 EXTENSIONS_BASE 设置 。 








更 严格 地 说 ，Scrapy 把 所 有 这 些 类 都 当 作 是 中 间 件 〈 通 过 
MiddlewareManager 类 的 子 类 管理 ) ， 人 允许 我 们 通过 实现 
from_crawler() 或 from_settings() 类 方法 ， 分别 从 Crawler 
Settings 对 象 初始 化 它们 。 由 于 Settings 可 以 从 Crawler 中 轻松 
获取 Ccrawler.settings ) ， 因 此 from_crawler() 是 更 加 流行 的 方 
式 。 如 果 不 需 要 Settings 或 Crawler ， 可 以 不 去 实现 它们 。 





表 8.1 可 以 帮助 你 在 针对 指定 问题 时 决定 最 好 的 机 制 。 











一 些 只 针对 于 我 正在 爬 取 的 网 站 的 内 容 














修改 或 存储 Item 一 一 特定 领域 ， 可 能 在 项 目 间 复 用 












































Ja ER F f] 
寺 定 领域 ， 可 能 在 项 目 间 复 用 件 


























修改 或 丢弃 Request/Response 



































执行 Request/Response 通用 ， 比如 支持 一 些 定制 化 登录 模式 或 处 i 写 下 载 器 中 














理 Cookie 的 特定 方式 间 件 




















他 问题 























8.3 ”示例 1: 非常 简单 的 管道 


假设 我 们 有 一 个 包含 几 个 讨 虫 的 应 用 ， 以 Python 常见 格式 提供 谎 取 
日 期 。 数 据 库 需要 将 其 转 为 字符 串 格 式 ， 以 便 进行 索引 。 我 们 不 想 编 辑 
息 虫 ， 因 为 仆 虫 的 数量 比较 多 。 此 时 可 以 怎么 做 呢 ?” 使 用 一 个 非常 简单 
的 管道 对 Item 进 行 后 置 处 理 ， 执 行 需要 的 转换 即 可 。 让 我 们 看 看 它 是 如 
何 工作 的 。 


from datetime import datetime 


class TidyUp(object): 
def process_item(self, item, spider): 
item['date'] = map(datetime.isoformat, item['date']) 


return item 





如 你 所 见 ， 这 里 只 有 一 个 包含 process_item() 方法 的 简单 类 。 这 
是 我 们 为 了 这 个 简单 管道 所 需要 做 的 所 有 事情 。 我 们 可 以 复 用 第 3 章 中 
的 怜 虫 ， 将 前 面 的 代码 写 入 pipelines 目录 的 tidyup .py 文件 中 。 





可 以 将 这 个 Item 管 道 的 代码 放 到 任何 地 方 ， 不 过 为 其 创建 一 个 单独 的 目 
录 是 一 个 好 主意 。 











现在 ， 需 要 编辑 项 目的 settings.py 文件 ， 将 ITEM_PIPELINES 
设置 为 


ITEM PIPELINES = {'properties.pipelines.tidyup.TidyUp': 100 } 





前 面 代码 字典 中 的 数字 100， 用 于 定义 管道 连接 的 顺序 。 如 果 妃 一 
个 管道 有 更 小 的 数值 ， 它 将 在 该 管道 之 前 优先 处 理 Item 。 





Q 


本 示例 的 完整 代码 位 于 che8/properties 目录 中 。 
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$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=90 


INFO: Enabled item pipelines: TidyUp 


DEBUG: Scraped from <200 ...property_@00060.htm1> 


'date': ['2015-11-08T14:47:04.148968'], 





和 我 们 期 望 的 一 样 ， 日 期 现在 被 格式 化 为 ISO 字符 串 了 。 


BA S 


言 号 提供 了 一 种 为 系统 中 发 生 的 事件 添加 回调 的 机 制 ， 比 如 当 息 中 
开启 时 或 当 item 被 抓 取 时 。 可 以 使 用 crawler.signals.connect() 
方法 hook 到 它们 上 《下 一 节 将 会 给 出 使 用 它 的 一 个 示例 ) 。 信 号 总 共有 
11 个 ， 理 解 它 们 的 最 简单 方式 可 能 就 是 在 实践 中 看 到 它们 。 我 创建 了 一 
个 项 目 ， 在 其 中 创建 了 一 个 扩展 ，hook 了 上 所 有 可 以 使 用 的 信号 。 另 外 ， 
我 还 创建 了 一 个 Item 管道 、 一 个 下 载 器 和 一 个 仆 虫 中 间 件 ， 可 以 记录 
所 有 的 方法 调用 。 该 项 目 使 用 的 爬虫 非常 简单 ， 只 对 两 个 item 进 
行 yield 操作 ， 然 后 抛 出 异常 。 





def parse(self, response): 
for i in range(2): 
item = HooksasyncItem() 
item[ 'name'] = "Hello %d" % i 
yield item 


raise Exception("dead") 





在 第 二 个 item 中 ， 我 配置 了 Item 管 道 ， 以 抛 出 DropItem 异常 。 
Q 


本 示例 的 完整 代码 可 以 从 che8/hooksasync 得 到 。 











使 用 该 项 目 ， 我 们 可 以 更 好 地 理解 茶 个 信号 是 什么 时 候 发 出 的 。 请 
查看 如 下 执行 中 日 志 行 之 间 的 注释 〈 为 了 简短 起 见 ， 省 略 了 部 分 行 ) 。 


$ scrapy crawl test 





。many lines ... 


# First we get those two signals... 


INFO: Extension, signals.spider_opened fired 


INFO: Extension, signals.engine_started fired 


# Then for each URL we get a request_scheduled signal 


INFO: Extension, signals.request_scheduled fired 


...# when download completes we get response_downloaded 


INFO: Extension, signals.response_downloaded fired 


INFO: DownloaderMiddlewareprocess response called for example.com 


# Work between response_downloaded and response_received 


INFO: Extension, signals.response_received fired 


INFO: SpiderMiddlewareprocess_spider_input called for example.com 


# here our parse() method gets called... and then SpiderMiddleware used 


INFO: SpiderMiddlewareprocess_spider_output called for example.com 


# For every Item that goes through pipelines successfully... 


INFO: Extension, signals.item_scraped fired 


# For every Item that gets dropped using the DropItem exception... 


INFO: Extension, signals.item_dropped fired 


# If your spider throws something else... 


INFO: Extension, signals.spider_error fired 


# ... the above process repeats for each URL 


# =... till we run out of them. then... 


INFO: Extension, signals.spider_idle fired 


# by hooking spider_idle you can schedule further Requests. If you don't 


# the spider closes. 


INFO: Closing spider (finished) 


INFO: Extension, signals.spider_closed fired 


# ... stats get printed 


# and finally engine gets stopped. 


INFO: Extension, signals.engine_stopped fired 





虽然 只 有 11 个 信号 ， 可 能 会 感觉 比较 有 限 ， 但 是 每 个 Scrapy 的 默认 
中 间 件 都 是 只 使 用 它们 实现 的 ， 因 此 它们 肯定 够 用 。 请 注意 ， 除 了 
spider_idle. spider_error ~ request_scheduled 
. response received filresponse_downloaded 以 外 的 所 有 其 他 信 
号 ， 都 可 以 返回 延迟 ， 而 不 是 真实 值 。 














8.5 ”示例 2: 测量 吞吐 量 和 延 时 的 扩展 








当 我 们 在 第 9 章 中 添加 管道 后 ， 测 量 吞 吐 量 《〈 每 秒 的 item 数 ) 和 延 
时 《计划 后 和 下 载 后 的 时 间 ) 的 变化 是 一 件 很 有 意思 的 事情 。 





Scrapy 扩 展 中 已 经 包含 了 一 个 测量 吞吐 量 的 扩展 ， 即 日 志 统 计 扩 展 

(scrapy/extensions/logstats.py) ， 我 们 将 会 以 此 为 起 点 。 要 想 
测量 延 时 ， 需 要 hook 一 些 信号 ， 包 括 request_scheduled 
. response received 和 item_scraped 。 我 们 对 每 个 信号 记录 时 间 
鹤 ， 并 通过 累计 多 次 取 平 均值 的 方式 减 去 适当 的 计算 延 时 。 通 过 观察 这 
些 信号 提供 的 回调 参数 ， 会 发 现 一 些 讨厌 的 东西 。item_scraped 只 
在 Response 中 获得 ，request_scheduled 只 在 Request 中 获得 ， 
而 response_received 则 是 两 者 中 都 有 。 笠 运 的 是 ， 我 们 不 需要 任何 
特殊 的 技巧 来 传递 这 些 值 。 每 个 Response 都 有 一 个 Request 成 员 ， 回 
指 其 Request ， 更 好 的 是 它 拥有 我 们 在 第 5 章 中 看 到 的 meta 字典 ， 它 和 
原始 Request 中 的 一 样 ， 而 不 管 是 否 存 在 重 定 同 。 非 党 好， 我 们 可 以 在 
这 里 存储 时 间 惟 了 ! 














实际 上 ， 这 并 不 是 我 的 主意 。 同 样 的 机 制 已 经 在 AutoThrottle 扩 展 
(scrapy/extensions/throttle.py ) 中 使 用 了 。 在 该 扩展 中 ， 使 用 了 
request .meta.get('download_ latency') ， 其 中 download_latency 是 
在 scrapy/core/downloader/webclient.py 下 载 器 中 进行 计算 的 。 在 编 


ad 


写 中 间 件 时 ， 最 快 的 改善 方式 就 是 让 自己 熟悉 Scrapy 默 认 的 中 间 件 代码 。 
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下 面 是 扩展 的 代码 。 





class Latencies(object): 
@classmethod 
def from_crawler(cls, crawler): 
return cls(crawler) 


def _init__(self, crawler): 
self.crawler = crawler 
self.interval = crawler.settings.getfloat('LATENCIES INTERVAL' ) 
if not self.interval: 


cs 


cs. 


cs 


raise NotConfigured 
= crawler.signals 
connect(self. spider_opened, signal=signals.spider_opened) 


.connect(self. spider_closed, signal=signals.spider_closed) 
cs. 
cs. 
cs. 


connect(self. request_scheduled, signal=signals.request_scheduled) 
connect(self. response received, signal=signals.response_ received) 
connect(self._item_scraped, signal=signals.item_scraped) 


self.latency, self.proc_latency, self.items = @, 0, 0 


def _spider_opened(self, spider): 
self.task = task.LoopingCall(self._ log, spider) 
self.task.start(self.interval ) 


def _spider_closed(self, spider, reason): 


if 


self.task.running: 
self.task.stop() 


def request_scheduled(self, request, spider): 
request.meta['schedule_ time'] = time() 

def response received(self, response, request, spider): 
request.meta[ ‘received _time'] = time() 


def _item_scraped(self, item, response, spider): 
self.latency += time() - response.meta['schedule time ] 
self.proc_latency += time() - response.meta[ 'received_time' ] 
self.items += 1 
def _log(self, spider): 
irate = float(self.items) / self.interval 
latency = self.latency / self.items if self.items else 6 
proc_latency = self.proc_latency / self.items if self.items else 6 
spider.logger.info(("Scraped %d items at %.1f items/s, avg latency: " 
"%.2f s and avg time in pipelines: %.2f s") % 
(self.items, irate, latency, proc_latency) ) 
self.latency, self.proc_latency, self.items = 0, 0, 0 








前 两 个 方法 非常 重要 ， 因 为 它们 很 通用 。 它 们 使 用 Crawler 对 象 初 
始 化 中 间 件 。 你 会 发 现 这 些 代 码 几 乎 出 现在 每 个 重要 的 中 间 件 当 
中 。from_crawler(cls，crawler) 是 获取 Crawler 对 象 的 方式 。 然 
后 ， 可 以 注意 到 在 ”init () 方法 中 ， 访 问 了 crawler.settings ， 
并 且 会 在 其 未 设置 时 抛 出 NotConfigured 异常 。 你 会 看 到 很 多 FooBar 
扩展 ， 用 于 检查 相应 的 FOOBAR_ENABLED 设置 ， 如 果 没 有 设置 或 者 设置 
为 False 时 ， 将 会 抛 出 异常 。 这 是 一 种 非常 常见 的 模式 ， 是 为 了 方便 将 
中 间 件 包含 在 对 应 的 settings .py 设置 中 (比如 ITEM_PIPELINES 
) ， 但 是 默认 情况 下 是 禁用 的 ， 除 非 通 过 其 对 应 的 设置 显 式 局 用 。 许 多 
默认 的 Scrapy 中 间 件 〈 比 如 AutoThrottle 或 HttpCache) 都 使 用 了 这 种 模 
式 。 在 本 例 中 ， 我 们 的 扩展 会 保持 LATENCIES_INTERVAL 的 禁用 状态 ， 
除非 已 经 对 其 进行 了 设置 。 








f£__init_() 方法 的 后 面 一 部 分 代码 中 ， 我 们 使 
用 crawler.signals.connect() ， 为 所 有 感 兴 趣 的 信号 都 注册 了 回 
调 ， 并 初始 化 了 一 些 成 员 变 量 。 这 个 类 的 剩余 部 分 实现 了 信号 处 理 器 。 





在 _spider_opened() 中 ， 我 们 初始 化 了 一 个 计时 器 ， 会 每 隔 
LATENCIES INTERVAL 秒 调用 _log() 方法 ; 在 _spider_closed() 

中 ， 我 们 停止 了 该 计时 器 。 在 _request_scheduled() 和 
_response_received() 中 ， 我 们 在 request .meta 中 存储 了 时 间 惟 ; 
而 在 _item_scraped() 中 ,我 们 累计 两 次 延 时 《从 计划 / 接收 开始 直 
到 当前 时 间 ) ， 并 递增 抓 取 到 的 Item 的 数量 。 在 _log( ) 方法 中 ， 我 们 
计算 了 平均 值 ， 格 式 化 并 打印 出 消息 ， 重 置 宗 加 器 以 开始 另 一 个 采样 周 
期 。 


任何 在 多 线程 上 下 文中 编写 类 似 代码 的 人 ， 都 会 意识 到 上 述 代 码 中 没有 
使 用 互 斥 锁 。 本 例 可 能 还 不 是 特别 复杂 ， 不 过 编写 单线 程 代码 仍然 要 更 加 简 
单 ， 并 且 在 更 加 复杂 的 场景 下 可 以 很 好 地 扩展 。 

































































我 们 可 以 将 该 扩展 的 代码 添加 到 latencies.py 模块 中 ， 放 到 和 
settings.py 同 级 的 目录 下 。 如 果 想 要 启用 该 扩展 ， 只 需 
在 settings.py 文件 中 添加 如 下 两 行 。 


EXTENSIONS = { '‘properties.latencies.Latencies': 500, } 
LATENCIES INTERVAL = 5 





我 们 可 以 像 平 时 那样 运行 它 。 


| 


$ pwd 


/root/book/ch@8/properties 


$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=10@0 -s LOG_LEVEL=INFO 


INFO: Crawled © pages (at © pages/min), scraped © items (at © items/min) 


INFO: Scraped © items at 0.0 items/sec, average latency: @.@@ sec and 


average time in pipelines: 0.00 sec 


INFO: Scraped 115 items at 23.0 items/s, avg latency: @.84 s and avg time 


in pipelines: 0.12 s 


INFO: Scraped 125 items at 25.0 items/s, avg latency: @.78 s and avg time 


in pipelines: 0.12 s 
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展 。 可 以 看 到 吞吐 量 是 每 秒 25 个 item， 平 均 时 延 是 0.78 秒 ， 我 们 在 下 载 
后 几乎 没有 花费 时 间 处 理 。 通 过 利 特 尔 法 则 ， 我 们 得 到 系统 中 item 的 数 
量 为 N = S .TT = 43 .6.45 2 19。 无 论 设置 的 
CONCURRENT_REQUESTS 和 CONCURRENT_REQUESTS_PER_DOMAIN 是 多 
少 ， 即 便 没 有 触及 100% 的 CPU， 出 于 某 些 原因 ， 也 不 应 该 使 其 超过 
30。 我 们 可 以 在 第 10 章 中 了 解 更 多 相关 内 容 。 





8.6 中间 件 延伸 


本 节 是 为 好 奇 的 读者 提供 的 ， 而 不 再 是 开发 者 。 如 果 只 是 编写 基础 
或 中 级 的 Scrapy 扩 展 的 话 ， 你 并 不 需要 了 解 这 些 内 容 。 


如 果 查 看 scrapy/settings/default_settings.py 文件 ， 就 会 
发 现在 默认 设置 中 有 很 多 类 名 。Scrapy 大 量 使 用 了 依赖 注入 机 制 ， 可 以 
让 我 们 自 定义 和 扩展 许多 内 部 对 象 。 例 如 ， 一 些 人 可 能 希望 支持 除了 文 
件 、HTTP、HTTPS、S3 以 及 FTP 这 些 在 
DOWNLOAD_HANDLERS_BASE 设 置 中 定义 好 的 协议 以 外 的 更 多 协 
议 。 要 想 实 现 这 一 点 ， 只 需要 创建 一 个 下 载 处 理 器 类 ， 并 在 
DOWNLOAD_HANDLERS 设 置 中 添加 映射 即 可 。 最 困难 的 部 分 是 找 出 
你 的 自 定义 类 必须 包含 哪些 接口 〈 即 需要 实现 哪些 方法 ) ， 因 为 大 部 分 
接口 都 不 是 显 式 的 。 你 必须 阅读 源 代 码 ， 碍 看 这 些 类 是 如 何 使 用 的 。 最 
好 的 办 法 是 从 已 有 的 实现 开始 ， 将 其 修改 为 令 自己 满意 的 版 本 。 不 过 ， 
这 些 接口 在 近期 的 Scrapy 版 本 中 已 经 逐渐 趋 于 稳定 ， 因 此 我 将 尝试 在 图 
8.4 中 将 它们 和 Scrapy 核 心 类 一 起 记录 成 文档 〈 这 里 省 略 了 前 面 已 经 提 及 
的 中 间 件 架构 ) 。 




















scrapy craw] and other 


commands | CrawlerRunner | 
«uses» -spider_loader : SpiderLoader from in 


i +crawlfin crawler_or_spidercls) +load(in spider_name) -mqs : MemoryQueue 
1 +stopl) +list() -dqs : DiskQueue 


Pr AN +find_by_request(in request) | |-dupefilter : BaseDupeFilter 
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-engine : ExecutionEngine ExecutionEngine 


imak SlenalManager -downloader : Downloader 
-settings : Settings € 


-extensions : ExtensionManager 
-logformatter : LogFormatter 


-scraper : Scraper 
-slot.scheduler : Scheduler 





+request_seen(in request) 
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-middleware : DownloaderMiddlewareManager -spidermw : SpiderMiddlewareManager 
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HttpDownloadHandler which inherits from 
HTTP10DownloadHandler etc. 


ItemPipelineManager 





An interesting extension 
is FeedExporter: 


«Uses» 
FeedExporter „> BaseltemExporter 
as 
| wusesn | +start_exporting(in request, in spider) 
+finish_exporting() scrapy check command 
1 


+export_item(in item) «uses» 
1 


1 
1 
ContractsManager 


















JsonLinesitemExporter 











JsonitemExporter 


..also CsvitemExporter, 












StdoutFeedStorage FileFeedStorage 


BlockingFeedStorage 


+pre_process(in response) 
+post_process(in output) 
+adjust_request_args(in args) 


PickleltemExporter, 
| O MarshalitemExporter, 
Po PprintitemExporter, 
7X 7X PythonltemExporter etc. 









+post_process(in output) +adjust_request_args(in args) 


S3FeedStorage 


FTPFeedStorage 





+post_process(in output) 


图 8.4 ”Scrapy 接 口 和 核心 对 象 


核心 类 位 于 图 8.4 的 左上 角 。 当 人 们 使 用 scrapy crawl 时 ，Scrapy 
就 会 使 用 CrawlerProcess 对 象 创建 我 们 熟悉 的 Crawler 对 
KR. Crawler 对 象 是 最 重要 的 Scrapy 类 。 它 包括 settings 、signals 
以 及 spider 。 在 名 为 extensions.crawler.engine 的 
ExtensionManager 对 象 中 ， 还 包含 所 有 的 扩展 ， 这 将 带领 我 们 来 到 另 
一 个 非常 重要 的 类 一 一 ExecutionEngine 。 在 该 类 中 ， 包 含 了 
Scheduler . Downloader a 。URL 通 过 Scheduler 进行 
计划 ， 通 过 Downloader 下 载 ， 通 过 Scraper 进行 后 置 处 理 。 宇 无 疑 
la], Downloader seein 和 DownloadHandler 
， 而 Scraper 包含 SpiderMiddleware 和 ItempPipeline 。4 
个 MiddlewareManager 也 都 拥有 其 自己 的 小 架构 。 在 Scrapy 中 ，feed 输 
出 是 以 扩展 的 形式 实现 的 ， 即 FeedExporter 。 它 包含 两 个 独立 的 结 
构 ， 一 个 用 于 定义 输出 格式 ， 而 另 一 个 用 于 存储 类 型 。 这 就 允许 我 们 可 
以 通过 调整 输出 的 URL 将 S3 的 XML 文件 导出 为 命令 行 上 的 Pickle 编 码 输 
出 。 这 两 个 结构 还 可 以 使 用 FEED_STORAGES 和 FEED_EXPORTERS 设置 
进行 独立 扩展 。 最 后 ，scrapy check 命令 使 用 的 contract 也 有 其 自身 的 
结构 ， 可 以 使 用 SPIDER_CONTRACTS 设置 进行 扩展 。 





8.7 本章 小 结 








喜 你 ， 你 已 经 对 Scrapy 和 Twisted 编程 有 了 深入 了 解 。 你 可 
a pua 到 目前 为 止 ， 我 们 需 人 
最 流行 的 扩展 是 Item 处 理 管 道 。 下 一 草 会 用 它 解 决 一 些 常见 的 问题 。 








上 一 章 讨论 了 使 用 Scrapy 中 间 件 的 编程 技术 。 本 章 将 通过 展示 各 种 
常见 用 例 〈( 包 括 消 费 REST API、 数 据 库 接口 、 处 理 CPU 密 集 型 任务 以 
及 与 遗留 服务 的 接口 ) ， 重 点 关注 编写 正确 而 高 效 的 管道 。 











在 本 章 中 ， 我 们 将 会 使 用 几 个 新 的 服务 器 ， 你 可 以 在 图 9.1 的 石 侧 
看 到 这 些 服 务 器 。 





图 9.1 本 章 使 用 的 系统 


Vagrant 应 该 已 经 为 我 们 创建 好 了 这 些 服务 器 ， 我 们 可 以 从 dev 服 务 
器 中 使 用 其 主机 名 进行 png 操 作 ， 例 如 ping es ping mysql 。 话 不 
多 说 ， 让 我 们 从 REST API 开 始 探索 吧 。 


9.1 使 用 REST API 


REST 是 一 套用 于 创建 现代 Web 服 务 的 技术 ， 其 主要 优点 是 比 SOAP 
或 专 有 Web 服 务 机 制 更 加 简单 ， 更 加 轻 量 级 。 软 件 开发 人 员 观 察 发 现 ， 
Web 服 务 经 党 提供 的 CRUD (创建 、 读 取 、 更 新 、 删 除 [Create 
、Read 、Update 、Delete] ) 功能 与 HITP 基 本 操作 (GET. POST. 
PUT. DELETE) 具有 相似 性 。 男 外 ， 他 们 还 发 现 典 型 的 Web 服 务 调用 
其 所 需 的 大 部 分 信息 时 ， 都 可 以 将 其 压缩 到 资源 URL 上 。 例 
如 ，http://api.mysite.com/ customer/john 是 一 个 资源 URL， 它 
可 以 让 我 们 确定 目标 服务 器 (api.mysite.com ) ， 实 际 上 我 正在 尝试 
在 服务 器 上 执行 和 customers (4) 相关 的 操作 ， 更 具体 的 说 就 是 执行 
和 john 〈 行 一 一 主键 ) 相关 的 操作 。 当 它 与 其 他 Web 概 念 〈《 如 安全 认 
证 、 无 状态 、 缓 存 、 使 用 XML 或 JSON 作 为 载荷 等 ) 结合 时 ， 能 够 通过 
一 种 强大 而 又 简单 、 熟 悉 且 可 以 轻松 跨 平 台 的 方式 ， 提 供 和 使 用 Web 服 
务 。 难 怪 REST 可 以 掀起 软件 行业 的 一 场 风暴 。 


9.1.1 使 用 treq 


treq 是 一 个 Python 包 ， 相 当 于 基于 Twisted 应 用 编写 的 Python 
requests 包 。 它 可 以 让 我 们 轻松 执行 GET、POST 以 及 其 他 HTTP 请 
求 。 想 要 安装 该 包 ， 可 以 使 用 pip install treq ， 不 过 它 已 经 在 我 们 
的 开发 机 中 预先 安装 好 了 。 





我 们 更 倾向 于 选择 treq 而 不 是 Scrapy 的 
Request/crawler.engine.download() 的 原因 是 ， 虽 然 它们 都 很 简 
单 ， 但 是 在 性 能 上 treq 更 有 优势 ， 我 们 将 会 在 第 10 章 中 看 到 更 详细 的 


Je 


9.1.2 ”用 于 写 入 Elasticsearch 的 管道 


首先 ， 我 们 要 编写 一 个 将 Item 存储 到 ES (Elasticsearch ) 服务 器 
的 肘 虫 。 你 可 能 会 觉得 从 ES 开始 ， 甚 至 爷 于 MySQL， 作 为 持久 化 机 制 
进行 讲解 有 些 不 太 寻 和 常 ， 不 过 其 实 它 是 我 们 可 以 做 的 最 简单 的 事情 。ES 
可 以 是 无 模式 的 ， 也 就 是 说 无 需 任 何 配置 就 能 够 使 用 它 。 对 于 我 们 这 个 
(非常 简单 的 ) 用 例 来 说 ，treq 也 已 经 足够 使 用 。 如 果 想 要 使 用 更 高 
级 的 ES 功能 ， 则 需要 考虑 使 用 txes2 或 其 他 Python/Twisted ES 包 。 








在 我 们 的 开发 机 中 ， 已 经 包含 正在 运行 的 ES 服务 器 了 。 下 面 登录 到 





开发 机 中 ， 验 证 其 是 否 正 在 正常 运行 。 





$ curl http://es:9200 


"name" : "Living Brain", 


“cluster_name" : "elasticsearch", 


"version" : { ... }, 


"tagline" : "You Know, for Search" 





EENAA, Yile|http://localhost:9200, Wa UA Sl 


同样 的 结果 。 当 访问 

http://localhost:9200/properties/property/_search 时 ， 可 以 

ee A 但 是 没有 找到 任何 与 房产 
恩 相 关 的 索引 。 共 喜 你 ， 刚 刚 已 经 使 用 了 ES 的 REST API. 





在 本 章 ， 我 们 将 在 properties 集 合 中 插入 房产 信息 。 你 可 能 需要 重 置 
properties 集 合 ， 此 时 可 以 使 用 curl 执行 DELETE 请 求 : 





























$ curl -XDELETE http://es:9200/properties 


本 章 中 管道 实现 的 完整 代码 包含 很 多 额外 的 细 市 ， 如 更 多 的 错误 处 
理 等 ， 不 过 我 将 通过 凸显 关键 点 的 方式 ， 保 持 这 里 的 代码 简洁 。 


本 章 在 che9 目录 当中 ， 其 中 本 示例 的 代码 
为 che9/properties/properties/pipelines/es.py。 








从 本 质 上 说 ， 疏 虫 代码 只 包含 如 下 4 行 。 


@defer.inlineCallbacks 
def process item(self, item, spider): 

data = json.dumps(dict(item), ensure_ascii=False) .encode("utf- 
8") 


yield treq.post(self.es_url, data) 





其 中 ， 前 两 行 用 于 定义 标准 的 process_item() 方法 ， 可 以 在 其 中 
yield 延迟 操作 (参考 第 8 章 ) 。 


3 行 用 于 准备 要 插入 的 data 。 首 先 ， 我 们 将 Item 转化 为 字典 。 
然后 使 用 json .dumps() 将 其 编码 为 JSON 格 式 。ensure ascii=False 
的 目的 是 通过 不 转 义 非 ASCII 字 符 ， 使 得 输出 更 加 紧凑 。 然 后 ， 将 这 些 
JSON 字 符 串 编码 为 UTF-8， 即 JSON 标 准 中 的 默认 编码 。 





最 后 一 行使 用 treq 的 post( ) 方法 执行 POST 请 求 ， 将 文档 插入 到 
ElasticSearch 中 。es_url 存储 在 settings .py 文件 当中 
(ES_PIPELINE_URL 设置 ) ， 如 http:// 
es:9266/properties/property ， 可 以 提供 一 些 基本 信息 ， 如 ES 服 
务 器 的 IP 和 端口 Ces:9200) 、 集 合 名 称 (properties ) 以 及 想 要 写 
入 的 对 象 类 型 (property ) 。 








要 想 月 用 该 管道 ， 需 要 将 其 添加 到 settings .py 文件 的 
ITEM_PIPELINES 设置 当中 ， 并 且 使 用 ES_PIPELINE_URL 设置 进行 初 
始 化 。 

ITEM_PIPELINES = { 


"properties.pipelines.tidyup.TidyUp': 100, 
"properties.pipelines.es.EswWriter': 800, 


} 
ES PIPELINE_URL = 'http://es:9200/properties/property ' 





完成 上 述 工 作 后 ， 我 们 可 以 进入 到 适当 的 目录 当中 。 


$ pwd 


/root/book/ch@9/properties 


$ 1s 


properties scrapy.cfg 





Wa, FIET MEH 





$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=90 


INFO: Enabled item pipelines: EsWriter... 


INFO: Closing spider (closespider_itemcount)... 


"item_scraped_count': 106, 





QAR OLE BIR lal http: //localhost :9200/properties/ 
property/_ search ， 可 以 在 响应 的 hits/total 字段 中 看 到 已 经 插 
入 的 条 目 数 量 ， 以 及 前 10 条 结果 。 我 们 还 可 以 通过 添加 ?size=166 参数 





取得 更 多 结果 。 在 搜索 URL 中 添加 q= 参数 时 ， 可 以 在 全 部 或 特定 字段 
中 搜索 指定 关键 词 。 最 相关 的 结果 将 会 出 现在 最 前 面 。 例 

Qi, http://localhost: 9200/properties/property/_search? 
q=title: london ， 将 会 返回 标题 中 包含 "London" 的 房产 信息 。 对 于 
更 加 复 洒 的 查询 ， 可 以 查阅 ES 的 官方 文档 ， 网 址 为 : 


https://www.elastic.co/guide/en/elasticsearch/reference/c 





query-dsl-query-string-query.html . 





ES 不 需要 配置 的 原因 是 它 可 以 根据 我 们 提供 的 第 一 个 属性 自动 检测 
模式 (字段 类 型 )。 通 过 访问 http://localhost:928686/properties/ 
， 可 以 看 到 其 自动 检测 的 映射 关系 。 


让 我 们 快速 得 看 一 下 性 能 ， 使 用 上 一 章 结尾 处 给 出 的 方式 重新 运 
行 scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1666 。 平 均 延 
时 从 0.78 秒 增长 到 0.81 秒 ， 这 是 因为 管道 的 平均 时 间 从 0.12 秒 增长 到 了 
0.15 秒 。 吞 吐 量 仍然 保持 在 每 秒 大 约 25 个 Item。 


使 用 管道 将 Item 插 入 到 数据 库 当 中 是 不 是 一 个 好 主意 昵 ? 答案 是 否定 
的 。 通 常情 况 下 ， 数 据 库 提供 的 批量 插入 条 目的 方式 可 以 有 几 个 数量 级 的 效 
率 提升 ， 因 此 我 们 应 当 使 用 这 种 方式 。 也 就 是 说 ， 应 当 将 Item 打 包 批 量 插 
入 ， 或 在 仆 虫 结束 时 以 后 置 处 理 的 步骤 执行 搬入。 我 们 将 在 最 后 一 半 中 看 到 
这 些 方法 。 不 过 ， 许 多 人 仍然 使 用 Item 管 道 插入 数据 库 ， 此 时 使 用 Twisted 
API 而 不 是 通用 / 阻 窗 的 方法 实现 该 方案 才 是 正确 的 方式 。 































































































9.1.3 {€H Google Geocoding API 实 现 地 理 编码 的 管道 





每 个 房产 信息 都 有 地 区 名 称 ， 因 此 我 们 想 对 其 进行 地 理 编码 ， 也 就 
是 说 找到 它们 对 应 的 坐标 (经 度 、 纬 度 ) 。 我 们 可 以 使 用 这 些 坐 标 将 房 
产 信息 放 到 地 图 上 ， 或 是 根据 它们 到 某 个 位 置 的 距离 对 搜索 结果 进行 排 
序 。 开 发 这 种 功能 需要 复杂 的 数据 库 、 文 本 匹配 以 及 空间 计算 。 而 使 用 
Google 的 Geocoding API， 可 以 避免 上 面 提 到 的 几 个 问题 。 可 以 通过 浏览 
器 或 curl 打开 下 述 URL 以 获取 数据 。 





$ curl "https://maps.googleapis.com/maps/api/geocode/json?sensor=false&ad 


dress=london" 


"results" : [ 


“formatted_address" : "London, UK", 


"geometry" : { 


"location" : { 


"lat" : 51.5073509, 


"Ing" : -0.1277583 


}s 


“location_type" : "APPROXIMATE", 


]， 


"status" : "OK" 


我 们 可 以 看 到 一 个 JSON 对 象 ， 当 搜索 "location" 时 ， 可 以 很 快 发 现 
Google 提 供 的 是 伦敦 中 心 坐标 。 如 果 继 续 搜 索 ， 会 发 现 同一 文档 中 还 包 
含 其 他 位 置 。 其 中 ， 第 一 个 坐标 位 置 是 最 相关 的 。 因 此 ， 如 果 存 
fEresults[@].geometry.location 的 话 ， 它 就 是 我 们 所 需要 的 信 
自 


4D o 





Google 的 Geocoding API 可 以 使 用 之 前 用 过 的 技术 〈treq ) 进行 访 
问 。 只 需 几 行 ， 就 可 以 找 出 一 个 地 址 的 坐标 位 置 (查看 pipeline 目录 
的 geo.py 文件 ) ， 其 代码 如 下 。 








@defer.inlineCallbacks 
def geocode(self, address): 
endpoint = 'http://web:9312/maps/api/geocode/json' 


parms = [('address', address), ('‘sensor', 'false')] 
response = yield treq.get(endpoint, params=parms ) 
content = yield response. json() 


geo = content['results'][0]["geometry" ][ "location" | 
defer.returnValue({"lat": geo["lat"], "lon": geo["1ng"]}) 





该 函数 使 用 了 一 个 和 前 面 用 过 的 URL 相 似 的 URL， 不 过 在 这 里 将 其 
指 回 到 一 个 假 的 实现 ， 以 使 其 执行 速度 更 快 ， 侵 入 性 更 小 ， 可 离线 使 用 
并 且 更 加 可 预测 。 可 以 使 用 endpoint = 


'https://maps.googleapis.com/maps/api/geocode/json' 来 访 
问 Google 的 服务 器 ， 不 过 Ii E 

fill, address 和 sensor 的 值 都 通过 treq 的 get() 方法 的 params 参数 
进行 了 自动 URL 编 码 。treq.get() 方法 返回 了 一 个 延迟 操作 ， 我 们 对 
其 执行 yield 操作 ， 以 便 在 啊 应 可 用 时 恢复 它 。 对 response.json( ) 
的 第 二 个 yield 操作 ， 用 于 等 竺 啊 应 体 加 载 完成 并 解析 为 Python 对 象 。 
此 时 ， 我们 可 以 得 到 第 一 个 o 将 其 格式 化 为 字典 后 ， 使 
用 defer.returnValue() 返回 ， 该 方法 是 从 使 用 inlineCallbacks 的 
方法 返回 值 的 最 适当 的 方式 。 如 有 果 任 何 地 方 存 在 问题 ， 该 方法 会 抛 出 异 
常 ， 并 通过 Scrapy 报 告 给 我 们 。 








通过 使 用 geocode() ，process_item() 可 以 变 为 一 行 代 码 ， 如 下 
所 示 。 


item["location"] = yield self.geocode(item["address"][8]) 








我 们 可 以 在 ITEM_PIPELINES 设置 中 添加 并 启用 该 管道 ， 其 优先 级 
数值 应 当 小 于 ES 的 优先 级 数值 ， 以 便 ES 获 取 坐 标 位 置 的 值 。 





ITEM PIPELINES = { 


'properties.pipelines.geo.GeoPipeline': 400, 





FA Va HAAA 24T “RAY MEE 





$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=96 -L DEBUG 


{'address': [u'Greenwich, London'], 


"image_urls': [u'http://web:9312/images/i@6.jpg'], 


"location': {'lat': 51.482577, ‘lon': -@.007659}, 


"price': [1030.0], 


现在 ， 可 以 看 到 Item 中 包含 了 location 字段 。 太 好 了 ! 不 过 当 使 
用 真实 的 Google API 的 URL 临 时 运行 它 时 ， 很 快 束 会 得 到 类 似 下 面 的 异 


AW 


IN o 


File "pipelines/geo.py" in geocode (content['status'], address)) 
Exception: Unexpected status="OVER_QUERY_LIMIT" for 
address="*London" 





这 是 我 们 在 完整 代码 中 放 入 的 一 个 检查 ， 用 于 确保 Geocoding API 
的 啊 应 中 status 字段 的 值 是 OK 。 如 果 该 值 非 真 ， 则 说 明 我 们 得 到 的 返 
回 数据 不 是 期 望 的 格式 ， 无 法 被 安全 使 用 。 在 本 例 中 ， 我 们 得 到 了 
OVER_QUERY_LIMIT 状态 ， 可 以 清楚 地 说 明 在 什么 地 方 发 生 了 错误 。 这 
可 能 是 我 们 在 许多 案例 中 都 会 面临 的 一 个 重要 问题 。 由 于 Scrapy 的 引擎 
具备 较 高 的 性 能 ， 绥 存 和 资源 请 求 的 限 流 成 为 了 必须 考虑 的 问题 。 


可 以 访问 Geocoder API 的 文档 来 了 解 其 限制 : “免费 用 户 API: 每 24 
小 时 允许 2500 个 请 求 ， 每 秒 允 许 5 个 请 求 ”>。 即 使 使 用 了 Google 
Geocoding API 的 付费 版 本 ， 仍 然 会 有 每 秒 10 个 请 求 的 限 流 ， 这 就 意味 
着 该 讨论 仍然 是 有 意义 的 。 


下 面 的 实现 看 起 来 可 能 会 比较 复杂 ， 但 是 它们 必须 在 上 下 文中 进行 判 
断 。 而 在 典型 的 多 线程 环境 中 创建 此 类 组 件 需 要 线程 池 和 同步 ， 这 样 就 会 产 
生 更 加 复杂 的 代码 。 





























下 面 是 使 用 Twisted 技 术 实 现 的 一 个 简单 而 又 足够 好 用 的 限 流 引 


a, 


class Throttler(object): 
def _init__(self, rate): 
self.queue = [] 
self.looping call = task.LoopingCall(self._allow_one) 
self.looping call.start(1. / float(rate)) 


def stop(self): 
self.looping call.stop() 


def throttle(self): 
d = defer.Deferred() 
self.queue.append(d) 
return d 


def _allow_one(self): 
if self.queue: 
self.queue.pop(@).callback(None) 





该 代码 中 ， 延 迟 操作 排队 进入 列表 中 ， 每 次 调用 _allow_one() 时 
依次 触发 它们 ; _allow_one() 检查 队列 是 否 为 室 ， 如 果 不 是 ， 则 调用 
最 旧 的 延迟 操作 的 callback() (AHH, FIFO) 。 我 们 使 用 Twisted 
的 task.LoopingCall() API 周 期 性 调用 allow_one() 。 使 


用 Throttler 非常 简单 。 我 们 可 以 在 管道 的 _init__ 中 对 其 进行 初始 
化 ， 并 在 爬虫 结束 时 对 其 进行 清理 。 
class GeoPipeline(object): 


def _init__(self, stats): 
self.throttler = Throttler(5) # 5 Requests per second 


def close spider(self, spider): 


self.throttler.stop() 





在 使 用 想 要 限 流 的 资源 之 前 (在 本 例 中 为 在 process_item() 中 调 
用 geocode() ) ， 需 要 对 限 流 器 的 throttle() 方法 执行 yield 操作 。 


yield self.throttler.throttle() 
item["location"] = yield self.geocode(item[ "address"][0]) 





在 第 一 个 yield 时 ， 代 码 将 会 暂停 ， 等 待 足够 的 时 间 过 去 之 后 再 恢 
复 。 比 如 ， 某 个 时 刻 共 有 11 个 延迟 操作 在 队列 中 ， 我 们 的 速率 限制 是 每 
秒 5 个 请 求 ， 我 们 的 代码 将 会 在 队列 清空 时 恢复 ， 大 约 为 115=2.2 秒 。 


使 用 Throttler 后 ， 我 们 不 再 会 发 生 错误 ， 但 是 爬虫 速度 会 变 得 非 
常 慢 。 通 过 观察 发 现 ， 示 例 的 房产 信息 中 只 有 有 限 的 几 个 不 同位 置 。 这 
是 使 用 缓存 的 一 个 非常 好 的 机 会 。 我 们 可 以 使 用 一 个 简单 的 Python 字典 
来 实现 缓存 ， 不 过 这 种 情况 下 将 会 产生 葛 态 条 件 ， 导 致 不 正确 的 APIT 调 
用 。 下 面 是 一 个 没有 该 问题 的 缓存 ， 此 外 还 演示 了 一 些 Python 和 Twisted 
的 有 趣 特性 。 














class DeferredCache(object): 
def _ init__(self, key_not_found_callback): 
self.records = {} 
self.deferreds waiting = {} 
self.key_not_found_callback = key_not_found_callback 


@defer.inlineCallbacks 
def find(self, key): 
rv = defer.Deferred() 


if key in self.deferreds waiting: 
self.deferreds waiting[key].append(rv) 
else: 
self.deferreds waiting[key] = [rv] 


if not key in self.records: 
try: 
value = yield self.key_not_found_callback(key) 
self.records[key] = lambda d: d.callback(value) 
except Exception as e: 
self.records[key] = lambda d: d.errback(e) 


action = self.records[key] 
for d in self.deferreds waiting.pop(key): 
reactor.callFromThread(action, d) 


value = yield rv 
defer.returnValue(value) 





该 缓存 看 起 来 和 人 们 通常 期 望 的 有 些 不 同 。 它 包含 两 个 组 成 部 分 。 


e self.deferreds waiting : 这 是 一 个 延迟 操作 的 队列 ， 等 待 指 
定 键 的 值 。 
e self.records: 这 是 已 经 出 现 的 键 -操作 对 的 字典 。 


如 果 查 看 find() 实现 的 中 间 部 分 ， 就 会 发 现 如 果 没 有 
fEself.records 中 找到 一 个 键 ， 则 会 调用 一 个 预定 义 的 callback pf 


数 ， 取 得 缺失 值 (yield self.key_not found callback(key) ) 。 
该 回调 函数 可 能 会 抛 出 一 个 异常 。 我 们 要 如 何在 Python 中 以 紧凑 的 方式 
存储 这 些 值 或 异常 呢 ? 由 于 Python 是 一 种 函数 式 语 言 ， 我 们 可 以 根据 是 
否 出 现 异 常 ， 在 self.records 中 存储 调用 延迟 操作 的 callback 

或 errback 的 小 函数 (lambda ) 。 在 定义 时 ， 该 值 或 异常 被 附加 

到 lambda 函数 中 。 函 数 中 对 变量 的 依赖 被 称 为 朵 包 ， 这 是 大 多 数 函 数 
式 编 程 语言 最 显著 和 强大 的 特性 之 一 。 














缓存 异常 有 些 不 太 常 见 ， 不 过 这 意味 着 如 果 在 第 一 次 查找 某 个 键 
Hf, key_not_found_callback(key) 抛 出 了 异常 ， 那 么 接 下 来 对 相同 键 再 
次 查询 时 仍然 会 抛 出 同样 的 异常 ， 不 需要 再 执行 额外 的 调用 。 





















































find() 实现 的 剩余 部 分 提供 了 避免 竞 态 条 件 的 机 制 。 如 果 要 得 询 
的 键 已 经 在 进程 当中 ， 将 会 在 self.deferreds_waiting 字典 中 有 记 
录 。 在 这 种 情况 下 ， 我 们 不 再 额外 调用 key_not_found_cal1lback() 
， 只 是 添加 到 延迟 操作 列表 中 ， 等 待 该 键 。 
当 key_not_found_callback() 返回 ， 并 且 该 键 的 值 变 为 可 用 时 ， 解 
发 每 个 等 待 该 键 的 延迟 操作 。 我 们 可 以 直接 执行 action(d) ， 而 不 是 使 
用 reactor.callFromThread() ， 不 过 这 样 就 必须 处 理 所 有 抛 出 的 异 
常 ， 并 且 会 创建 一 个 不 必要 的 长 延迟 链 。 





使 用 缓存 非常 简单 。 只 需 在 _init () 中 对 其 初始 化 ， 并 在 执 
行 API 调用 时 设置 回调 函数 即 可 。 在 process_item() 中 ， 按 照 如 下 代 


码 使 用 缓存 。 


def _ init _ (self, stats): 
self.cache = DeferredCache(self.cache_key_not_found_callback) 


@defer.inlineCallbacks 

def cache_key_not_found_callback(self, address): 
yield self.throttler.enqueue() 
value = yield self.geocode(address) 
defer.returnValue(value) 


@defer.inlineCallbacks 

def process _item(self, item, spider): 
item["location"] = yield self.cache.find(item["address"][@]) 
defer.returnValue(item) 





本 例 的 完整 代码 包含 了 更 多 的 错误 处 理 代码 ， 能 够 对 限 流 导致 的 错 
误 重 试 调用 一 个 简单 的 while 循环 ) ， 并 且 还 包含 了 更 新 爬虫 状态 的 
代码 。 


Q 
本 例 的 完整 代码 文件 地 址 
为 : ch09/properties/properties/pipelines/geo2.py 。 








要 想 启用 该 管道 ， 需 要 禁用 (注释 掉 ) 之 前 的 实现 ， 并 且 
在 settings .py 文件 的 ITEM_PIPELINES 中 添加 如 下 代码 。 





ITEM PIPELINES = { 
'properties.pipelines.tidyup.TidyUp': 100, 
'properties.pipelines.es.EsWriter': 800, 


# DISABLE 'properties.pipelines.geo.GeoPipeline': 400, 
"properties.pipelines.geo2.GeoPipeline': 400, 








Kia, Hy A RU TRISTE. 





$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 


Scraped... 15.8 items/s, avg latency: 1.74 s and avg time in pipelines: 


0.94 s 


Scraped... 32.2 items/s, avg latency: 1.76 s and avg time in pipelines: 


0.97 s 


Scraped... 25.6 items/s, avg latency: 6.76 s and avg time in pipelines: 


0.14 s 


: Dumping Scrapy stats:... 


'geo_pipeline/misses': 35, 


'item_scraped_count': 1019, 





可 以 看 到 ， 疏 取 延 时 最 初 由 于 填充 绥 存 的 原因 非常 高 ， 但 是 很 快 就 





回 到 了 之 前 的 值 。 统 计 显 示 总 共有 35 次 未 命中 ， 这 正 是 我 们 所 用 的 示例 


数据 集 内 不 同位 置 的 数量 。 显 然 ， 在 本 例 中 总 共有 1019 - 35 = 984 次 命 
中 缓存 。 如 果 使 用 真实 的 Google API， 并 将 每 秒 对 API 的 请 求 数量 稍微 
增加 ， 比 如 通过 将 Throttler(5) 改 为 Throttler(16) ， 把 每 秒 请 求 
数 从 5 增加 到 10， 就 会 在 geo_pipeline/retries 统计 中 得 到 重 试 的 记 
录 。 如 果 发 生 任 何 错误 ， 比 如 使 用 API 无 法 找到 一 个 位 置 ， 将 会 抛 出 异 
ti» HHS Egeo_pipeline/errors 统计 中 被 捕获 到 。 如 果 某 个 位 置 
的 坐标 已 经 被 设置 《后 面 的 小 节 中 看 到 ) ， 则 会 

在 geo_pipeline/already_set 统计 中 显示 。 最 后 ， 当 访问 





http://localhost:9200/ properties/ property/_search ， 碍 
看 房产 信息 的 ES 时 ， 可 以 看 到 包含 坐标 位 置 值 的 条 目 ， 比 如 
{..."location": {"lat": 51.5269736, "lon": 

-96.9667264}. ..} ， 这 和 我 们 所 期 望 的 一 样 〈 在 运行 之 前 清理 集合 ， 
确保 看 到 的 不 是 旧 值 ) 。 





9.1.4 在 Elasticsearch 中 启用 地 理 编 码 索引 


既然 已 经 拥有 了 坐标 位 置 ， 现 在 就 可 以 做 一 些 事情 了 ， 比 如 根据 距 
离 对 结果 进行 排序 。 下 面 是 一 个 HTTP POST 请 求 〈 使 用 curl 执行 ) ， 
返回 标题 中 包含 "Angel" 的 房产 信息 ， 并 按照 它们 与 点 {51.54，-6.19} 
的 距离 进行 排序 。 











$ curl http://es:9200/properties/property/_search -d '{ 


"query" : {"term" : { "title" : "angel" } }, 


"sort": [{"_geo_ distance": { 


"location": 


"order": 


"unit": 


{"lat": 51.54, "lon": -0.19}, 


asc", 


" km" 3 


"distance type": "plane" 


HIH! 


唯一 的 问题 是 当 


n 


\ 一 /一 


Ja1T 


= 





发 现 运行 失败 ， 并 得 到 了 一 个 错 


误 信 息 : "failed to find mapper for [location] for geo 
distance based sort"。 这 说 明 位 置 字 段 并 不 是 执行 空间 操作 的 适当 
格式 。 要 想 设 置 为 合适 的 类 型 ， 则 需要 手动 重 写 其 默认 类 型 。 首 先 ， 将 
其 自动 检测 的 映射 关系 保存 到 文件 中 。 

















$ curl 'http://es:9200/properties/_mapping/property' > property.txt 





然后 编辑 property.txt 的 如 下 代码 。 


"location":{"properties":{"lat":{"type":"double"},"lon":{"type":"d 
ouble" }}} 





将 该 行 的 代码 修改 为 如 下 代码 。 


"location": {"type": "geo point"} 





另外 ， 我 们 还 删除 了 文件 尾部 的 {"properties":{"mappings": 
and two }} 。 对 该 文件 的 修改 到 此 为 止 。 现 在 可 以 按 如 下 代码 删除 旧 


类 型 ， 使 用 指定 的 模式 创建 新 类 型 。 


$ curl -XDELETE 'http://es:9200/properties ' 


$ curl -XPUT 'http://es:9200/properties ' 


$ curl -XPUT 'http://es:9200/properties/_mapping/property' --data 


@property.txt 








现在 可 以 再 次 运行 该 息 虫 ， 并 且 可 以 重新 运行 本 市 前 面 的 curl 命 
令 ， 此 时 将 会 得 到 按照 距离 排序 的 结果 。 我 们 的 搜索 返回 了 房产 信息 的 
JSON， 额 外 包含 了 一 个 sort 字段 ， 该 字段 的 值 是 到 搜索 点 的 距离 ， 单 
位 为 干 米 。 





9.2 与 标准 Python 和 客户 端 建 并 数据 库 接 口 


有 很 多 重要 的 数据 库 遵 从 Python 数据 库 API 规 范 2.0 版 本 ， 包 括 
MySQL. PostgreSQL. Oracle, Microsoft SQL Server 和 SQLite。 它 们 的 
驱动 一 般 都 比较 复杂 且 久 经 考验 ， 如 果 为 Twisted 重 新 实现 的 话 则 是 已 
大 的 浪费 。 人 们 可 以 在 Twisted 应 用 中 使 用 这 些 数据 库 客户 端 ， 比 如 在 
Scrapy 使 用 twisted.enterprise.adbapi 库 。 我 们 将 使 用 MySQL 作 为 
示例 演示 其 使 用 ， 不 过 对 于 任何 其 他 兼容 的 数据 库 来 说 ， 也 可 以 应 用 相 
同 的 原则 。 


9.2.1 用 于 写 入 MySQL 的 管道 


MySQL 是 一 个 非常 强大 且 访 行 的 数据 库 。 我 们 将 编写 一 个 管道 ， 
将 item 写 入 到 其 中 。 我 们 已 经 在 虚拟 环境 中 运行 了 一 个 MySQL 实 例 。 现 
在 只 需 使 用 MySQL 命 令 行 工具 执行 一 些 基 本 管理 即 可 ， 同 样 该 工具 也 
己 经 在 开 肥 机 中 预 安 装 好 了 ， 下 面 执行 如 下 操作 打开 MySQL 控 制 合 。 





$ mysql -h mysql -uroot -ppass 





这 将 会 得 到 MySQL 的 提示 符 ， 即 mysq> ， 现 在 可 以 创建 一 个 简单 
的 数据 库 表 ， 其 中 包含 一 些 字 段 ， 如 下 所 示 。 


mysql> create database properties; 


mysql> use properties 


mysql> CREATE TABLE properties ( 


url varchar(10@) NOT NULL, 


title varchar (30), 


price DOUBLE, 


description varchar(3@), 


PRIMARY KEY (url) 


); 


mysql> SELECT * FROM properties LIMIT 10; 


Empty set (0.00 sec) 





非常 好 ， 现 在 拥有 了 一 个 MySQL 数 据 库 ， 以 及 一 张 名 
为 properties 的 表 ， 其 中 包含 了 一 些 字段 ， 此 时 可 以 准备 创建 管道 
了 。 请 保持 MySQL 的 控制 台 为 开局 状态 ， 因 为 之 后 还 会 回来 检查 是 否 
正确 插入 了 值 。 如 果 想 退出 控制 台 ， 只 需要 输入 exit 即 可 。 





在 本 节 ， 我 们 将 会 册 MySQL 数 据 库 中 插入 房产 信息 。 如 果 你 想 控 除 
们 ， 可 以 使 用 如 下 命令 : 


除 它 























mysql> DELETE FROM properties; 


我 们 将 使 用 Python 的 MySQL 客 户 端 。 我 们 还 将 安装 一 个 名 为 dj- 
database-url 的 小 工具 模块 ， 帮 助 我 们 解析 连接 的 URL《〈 仅 用 于 为 我 
们 在 一、 端口 、 密 码 等 不 同 设 置 中 切换 节省 时 间 ) 。 可 以 使 用 pip 
install dj-database-url MySQL-python 安装 这 两 个 库 ， 不 过 我 们 
己 经 在 开发 环境 中 安装 好 它们 了。 我 们 的 MySQL 管 道 非常 简单 ， 如 下 
所 示 。 





from twisted.enterprise import adbapi 


class MysqlWriter(object): 


def _ init__(self, mysql_url): 
conn_kwargs = MysqlWriter.parse_mysql_url(mysql_url) 
self.dbpool = adbapi.ConnectionPool( 'MySQLdb' , 
charset='utf8', 
use_unicode=True, 
connect_timeout=5, 
**conn_kwargs) 


def close spider(self, spider): 
self.dbpool.close() 


@defer.inlineCallbacks 
def process_item(self, item, spider): 
try: 


yield self.dbpool.runInteraction(self.do_replace，item) 


except: 
print traceback.format_exc() 


defer.returnValue(item) 


@staticmethod 

def do_replace(tx, item): 
sql = """REPLACE INTO properties (url, title, price, 
description) VALUES (%s,%s,%s,%S)""" 


args = ( 

item[ "url" ][@][:100], 

item[ "title" ][e][:30], 

item[ "price" ]|[@], 

item[ "description" ][@].replace("\r\n", " ")[:30] 
) 


tx.execute(sql, args) 





Q 
本 示例 的 完整 代码 地 址 
为 che9/properties/properties/pipeline/mysql.py。 





本 质 上 ， 大 部 分 代码 仍然 是 模板 化 的 爬虫 代码 。 我 们 省 略 的 代码 用 
于 将 MYSQL_PIPELINE_URL 设置 中 包含 的 
mysql://user:pass@ip/database 格式 的 URL 人 解析 为 独立 参数 。 在 把 
虫 的 _init_() 中 ， 我 们 将 这 些 参数 传 给 
adbapi.ConnectionPool() ， 使 用 adbapi 的 基础 功能 初始 化 MySQL 
连接 池 。 第 一 个 参数 是 想 要 导入 的 模块 名 称 。 在 该 MySQL 示 例 中 ， 


为 MySQLdb 。 我 们 还 为 MySQL 客 户 端 设置 了 一 些 额 外 的 参数 ， 用 于 处 
理 Unicode 和 超时 。 所 有 这 些 参 数 会 在 每 次 adbapi 需要 打开 新 连接 时 ， 
前 往 底 层 的 MySQLdb.connect() 函数 。 当 疏 虫 关闭 时 ， 我 们 为 该 连接 
池 调 用 close() 方法 。 


我 们 的 process_item() 方法 实际 上 包装 了 
dbpool.runInteraction() 。 该 方法 将 稍 后 调用 的 回调 方法 放 入 队 
列 ， 当 来 自 连接 池 的 某 个 连接 的 Transaction 对 象 变 为 可 用 时 ， 调 用 
该 回调 方法 。Transaction 对 象 的 API 与 DB-API 游 标 相似 。 在 本 例 
中 ， 回 调 方法 为 do_replace() ， 该 方法 在 后 面 几 行进 行 了 定 
义 。@staticmethod 意味 着 该 方法 指 辐 的 是 类 ， 而 不 是 具体 的 类 实 
例 ， 因 此 ， 可 以 省 略 平时 使 用 的 self 参数 。 当 不 使 用 任何 成 员 时 ， 将 
方法 静态 化 是 个 好 习惯 ， 不 过 即使 忘记 这 么 做 ， 也 没有 问题 。 该 方法 准 
备 了 一 个 SQL 字符 串 和 几 个 参数 ， 调 用 Transaction 的 execute() 方 
法 执行 插入 。 我 们 的 SQL 语句 使 用 了 了 REPLACE INTO 来 蔡 换 已 经 存在 的 
条 目 ， 而 不 是 更 常见 的 INSERT INTO ， 原 因 是 如 果 条 目 己 经 存在 ， 可 
以 使 用 相同 的 主键 。 在 本 例 中 这 种 方式 非常 便捷 。 如 果 想 使 用 SQL 返回 
数据 ， 如 SELECT 语句 ， 可 以 使 用 dbpool.runQuery() 。 如 果 想 要 修改 
默认 游标 ， 可 以 通过 设置 adbapi.ConnectionPool() 的 cursorclass 
参数 来 实现 ， 比 如 设置 cursorclass=MySQLdb.cursors.DictCursor 
， 可 以 让 数据 获取 更 加 便捷 。 























要 想 使 用 该 管道 ， 
字典 中 添加 它 ， 男 外 还 


ITEM PIPELINES = { ... 


fEsettings.py 文件 的 ITEM_PIPELINES 


需要 设置 MYSQL_PIPELINE_URL 属性 。 


"properties.pipelines.mysql.Mysqlwriter': 700, 


MYSQL_PIPELINE_URL = 'mysql://root:pass@mysql/properties' 





执行 如 下 个 


> 
> 


o 


scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1000 





ERIEK 





mysql> SELECT COUNT(*) FROM properties; 


| 1006 | 


mysql> SELECT * FROM properties LIMIT 4; 


+------------------ +-------------------------- +-------- +----------- + 
| url | title | price | description 
+------------------ +-------------------------- +-------- +----------- + 
| http://...@.html | Set Unique Family Well | 334.39 | website c 


| http://...1.html | Belsize Marylebone Shopp | 388.03 | features 


| http://...2.html | Bathroom Fully Jubilee S | 365.85 | vibrant own 


| http://...3.html | Residential Brentford Ot | 238.71 | go court 


4 rows in set (0.00 sec) 








延 时 和 吞吐 量 等 性 能 和 之 前 保持 相同 ， 相 当 不 错 。 


9.3 ”使 用 Twisted 专 用 客户 端 建 立 服 务 接 口 


到 目前 为 止 ， 我 们 看 到 了 如 何 通过 treq 使 用 类 REST API. Scrapy 
还 可 以 和 许多 其 他 使 用 Twisted 专 用 客户 端的 服务 建立 接口 。 比 如 ， 我 
们 想 要 与 MongoDB 建 并 接口 ， 当 搜索 "MongoDB Python" 时 ， 将 会 得 
到 PyMongo ， 该 库 是 阻塞 /同步 的 ， 不 能 和 Twisted 一 起 使 用 ， 除 非 使 用 
后 续 小 节 中 的 方法 ， 在 管道 中 描述 线程 ， 处 理 阻 塞 操作 。 如 采 搜 
索 "MongoDB Twisted Python"， 将 会 得 到 txmongo ， 该 库 可 以 在 Twisted 





和 Scrapy 中 完美 运行 。 通 常情 况 下 ，Twisted 客 户 端 背 后 的 社区 都 很 小 ， 
但 相 比 自 行 编写 客户 端 ， 这 仍然 是 一 个 更 好 的 选择 。 我 们 将 使 用 一 个 类 
似 的 Twisted 专 用 客户 端 作 为 接口 ， 处 理 Redis 键 值 对 存储 。 





9.3.1 用 于 读 写 Redis 的 管道 


Google Geocoding API 是 按照 了 进行 限制 的 。 我 们 可 以 利用 多 个 
IP《 例 如 使 用 多 台 服 务 器 ) 进行 缓解 ， 此 时 需要 避免 重复 请 求 其 他 机 器 
上 已 经 完成 地 理 编码 的 地 址 。 这 种 情况 也 适用 于 之 前 运行 中 曾 见 到 过 的 
地 址 。 我 们 不 想 浪 费 宝贵 的 限额 。 





请 与 API 供 应 商 沟通 ， 确 保 在 他 们 的 策略 下 这 种 做 法 是 可 行 的 。 比 如 ， 
你 可 能 必须 每 隔 几 分 钟 /小 时 就 要 丢弃 掉 缓 存 记录 ， 或 者 根本 不 允许 缓存 。 
































我 们 可 以 使 用 Redis 的 键 值 对 缓存 ， 从 本 质 上 说 ， 它 是 一 个 分 布 式 
的 字典 。 我 们 已 经 在 vagrant 环 境 中 运行 了 一 个 Redis 实 例 ， 可 以 使 
用 redis-cli 命令 ， 从 开发 机 连接 它 并 执行 基本 操作 。 





$ redis-cli -h redis 


redis:6379> info keyspace 


# Keyspace 


redis:6379> set key value 


OK 


redis:6379> info keyspace 


# Keyspace 


db@:keys=1,expires=0,avg tt1=0 


redis:6379> FLUSHALL 


OK 


redis:6379> info keyspace 


# Keyspace 


redis:6379> exit 





通过 Google 搜 索 "Redis Twisted"， 我 们 找到 了 txredisapi fe. H 





本 质 区 别 是 它 不 再 是 同步 Python 库 的 包装 ， 而 是 适用 于 Twisted 的 库 ， 它 
使 用 reactor .connectTCP() 连接 Redis、 实 现 Twisted 协 议 等 。 使 用 该 
库 的 方式 与 其 他 库 类 似 ， 不 过 在 Twisted 应 用 中 使 用 它 时 ， 其 效率 肯定 
会 更 高 一 些 。 我 们 在 安装 它 时 可 以 再 附带 一 个 工具 库 

一 一 dj_redis_url ， 该 工具 库 用 于 解析 Redis 配 置 URL， 我 们 可 以 使 
用 pip 进行 安装 (sudo pip install txredisapi dj redis url 

) ， 和 往常 一 样 ， 在 我 们 的 开发 机 中 也 已 经 预先 安装 好 了 这 些 库 。 





可 以 按 如 下 代码 初始 化 RedisCache 。 


from txredisapi import lazyConnectionPool 


class RedisCache(object): 


def _init__(self, crawler, redis_url, redis_nm): 
self.redis_ url = redis url 
self.redis_ nm = redis_nm 


args = RedisCache.parse redis_url(redis url) 
self.connection = lazyConnectionPool(connectTimeout=5, 
replyTimeout=5, 
**args) 
crawler.signals.connect( 
self.item_scraped,signal=signals.item_scraped) 





该 管道 非常 简单 。 为 了 连接 Redis 服 务 器 ， 我 们 需要 主机 地 址 、 端 
口 等 参数 ， 由 于 这 些 参数 是 以 URL 格 式 存 储 的 ， 因 此 需要 使 





用 parse_redis_url() 方法 解析 该 格式 〈 为 简洁 起 见 已 经 省 略 ) 。 为 
键 设置 前 缀 作为 命名 空间 的 行为 非常 常见 ， 在 本 例 中 ， 我 们 将 其 存储 

在 redis_nm 中 。 然 后 ， 使 用 txredisapi 的 1azyConnectionPool() 
， 打 开 到 服务 器 的 连接 。 


最 后 一 行使 用 了 一 个 很 有 意思 的 函数 。 我 们 的 目的 是 将 地 理 编码 管 
道 与 该 管道 包装 起 来 。 如 果 在 Redis 中 没有 某 个 值 ， 我 们 将 不 会 设置 该 
值 ， 我 们 的 地 理 编码 管道 将 像 之 前 那样 使 用 API 对 地 址 进行 地 理 编码 。 
在 该 操作 完成 之 后 ， 需 要 有 一 种 方式 在 Redis 中 绥 存 这 些 键 值 对 ， 在 这 
里 是 通过 连接 到 signals.item_scraped 信号 的 方式 实现 的 。 我 们 定 
义 的 回调 Citem_scraped() 方法 ， 将 很 快 看 到 ) 在 非常 靠 后 的 位 置 被 
调用 ， 此 时 坐标 位 置 将 会 被 设置 。 





Q 
本 示例 的 完整 代码 位 于 
ch@9/properties/properties/pipelines/redis.py 。 





我 们 通过 查找 和 记录 每 个 Item 的 地 址 和 位 置 ， 保 持 了 缓存 的 简单 
性 。 这 对 Redis 来 说 是 很 有 意义 的 ， 因 为 它 经 第 运行 在 同一 个 服务 器 当 
中 ， 这 使 得 它 运 行 速度 非常 快 。 如 采 不 是 这 种 情况 ， 那 么 可 能 需要 添加 
一 个 基于 字典 的 缓存 ， 与 我 们 在 地 理 编码 管道 中 的 实现 类 似 。 下 面 是 处 
理 传 入 的 Iem 的 方法 。 




















@defer.inlineCallbacks 

def process _item(self, item, spider): 
address = item[ "address" ][@] 
key = self.redis_nm + ":" + address 
value = yield self.connection.get(key) 
if value: 


item["location"] = json.loads(value) 
defer.returnValue(item) 





和 大 家 的 期 望 相同 。 我 们 得 到 了 地 址 ， 为 其 添加 前 级 ， 然 后 使 
用 txredisapi connection 的 get() 方法 在 Redis 中 查询 。 我 们 在 
Redis 中 存储 的 值 是 JSON 编 码 的 对 象 。 如 果 值 已 经 设 定 ， 则 使 用 JSON 对 
其 进行 解码 ， 并 将 其 设 为 坐标 位 置 。 


当 一 个 Item 到 达 所 有 管道 的 结尾 时 ， 我 们 重新 捕获 它 ， 确 保存 储 
到 Redis 的 位 置 值 当中 。 下 面 是 实现 代码 。 





from txredisapi import ConnectionError 


def item_scraped(self, item, spider): 
try: 
location = item[ "location" ] 
value = json.dumps(location, ensure_ascii=False) 
except KeyError: 
return 


address = item[ "address" ][@] 

key = self.redis_nm + ":" + address 

quiet = lambda failure: failure.trap(ConnectionError ) 
return self.connection.set(key, value) .addErrback (quiet) 





这 里 同样 没有 什么 惊喜 。 如 果 我 们 找到 一 个 位 置 ， 束 可 以 得 到 地 
址 ， 为 其 添加 前 级 ， 并 使 用 它们 作为 键 值 对 ， 用 于 txredisapi 连接 的 
set() 方法 。 你 会 发 现 该 函数 没有 使 用 @defer.inlineCallbacks , 
这 是 因为 在 处 理 signals.item_scraped 时 并 不 支持 该 装饰 器 。 这 就 
意味 着 无 法 再 对 connection.set() 使 用 非常 便捷 的 yield 操作 ， 不 过 
我 们 可 以 做 的 工作 是 返回 延迟 操作 ，Scrapy 可 以 用 它 串 联 任何 未 来 的 信 
号 进行 监听 。 无 论 何 种 情况 ， 如 果 到 Redis 的 连接 无 法 执 
行 connection.set() ， 就 会 执 出 一 个 异常 。 可 以 通过 添加 自 定 义 错误 
处 理 到 connection.set() 返回 的 延迟 操作 中 ， 静 默 忽 略 该 异常 。 在 该 
错误 处 理 中 ， 我 们 将 失败 作为 参数 传递 ， 并 告知 它们 对 任 
何 ConnectionError 执行 trap() 操作 。 这 是 Twisted 的 延迟 操作 API 的 
一 个 非常 好 用 的 功能 。 通 过 在 预期 的 异常 中 使 用 trap() ， 我 们 能 够 以 
紧凑 的 方式 静默 忽略 它们 。 








为 了 局 用 该 管道 ， 我 们 所 需 做 的 驶 是 将 其 添加 到 ITEM_PIPELINES 


设置 中 ， 并 在 settings.py 文件 中 提供 一 个 REDIS_PIPELINE_URL 。 
为 该 管道 设置 一 个 比 地 理 编码 管道 更 小 的 优先 级 值 非常 重要 ， 人 否则 其 运 
行 就 会 太 迟 ， 无 法 起 到 作用 。 





ITEM_PIPELINES 
'properties.pipelines.redis.RedisCache': 300, 
"properties.pipelines.geo.GeoPipeline': 400, 


REDIS PIPELINE_URL = ‘'redis://redis:6379' 





BAT AT WA BOP IN ABP AT AME. BRISA HAZ ARI, A 
过 接 下 来 的 每 次 运行 都 会 像 下 面 这 样 。 





$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=166 


INFO: Enabled item pipelines: TidyUp, RedisCache, GeoPipeline, 


MysqlWriter, EsWriter 


Scraped... @.@ items/s, avg latency: @.00 s, time in pipelines: 0.00 s 


Scraped... 21.2 items/s, avg latency: 0.78 s, time in pipelines: 0.15 s 


Scraped... 24.2 items/s, avg latency: 0.82 s, time in pipelines: 0.16 s 


INFO: Dumping Scrapy stats: {... 


"geo_pipeline/already_set': 106, 


"item_scraped_count': 106, 


可 以 看 到 GeoPipeline 和 RedisCache 都 已 经 启用 ， 并 且 
RedisCache 会 首先 进行 。 另 外 ， 还 可 以 注意 
到 geo_pipeline/already_set 统计 值 是 106。 这 些 是 GeoPipeline 从 
Redis 绥 存 中 找到 的 预先 填充 好 的 item， 并 且 它 们 都 不 需要 请 求 Google 
API 调 用 。 如 果 Redis 绥 存 为 空 ， 你 会 看 到 一 些 键 依 然 会 使 用 Google API 
进行 处 理 。 在 性 能 方面 ， 我 们 注意 到 GeoPipeline 引 发 的 初始 行为 现在 没 
有 了 。 实 际 上 ， 由 于 目前 使 用 了 缓存 ， 因 此 绕 过 了 每 秒 5 个 请 求 的 API 限 
制 。 当 使 用 Redis 时 ， 还 应 当 考虑 使 用 过 期 键 ， 使 系统 可 以 周期 性 地 刷 
新 缓存 数据 。 


94 为 CPU 密集 型 、 阻 塞 或 遗留 功能 建立 接口 





本 章 最 后 一 节 讨论 的 是 访问 大 多 数 非 Twisted 的 工作 。 尽 管 有 高 效 
的 异步 代码 所 融 来 的 巨大 收益 ， 但 为 Twisted 和 Scrapy 重 写 每 个 库 ， 既 不 
现实 也 不 可 行 。 使 用 Twisted 的 线程 池 和 reactor.spawnProcess() 方 
法 ， 我 们 可 以 使 用 任何 Python 库 甚 至 其 他 语言 编写 的 二 进 制 包 。 








9.4.1 ”处理 CPU 密集 型 或 阻塞 操作 的 管道 


第 8 章 讲 到 ，reactor 对 于 简短 、 非 阻塞 的 任务 非常 理想 。 如 果 必 须 
要 执行 一 些 更 复杂 或 是 涉及 阻塞 的 事情 ， 该 怎么 做 昵 ? Twisted 提 供 了 
线程 池 ， 可 以 使 用 reactor .callInThread() API 调 用 ， 在 一 些 线程 中 


执行 慢 操 作 ， 而 不 是 在 主线 程 中 执行 〈Twisted 的 reactor) 。 这 就 意味 着 
reactor 会 持续 运行 其 处 理 过 程 ， 并 在 计算 发 生 时 响应 事件 。 请 注意 ， 在 
线程 池 中 的 处 理 不 是 线程 安全 的 。 这 就 是 说 当 你 使 用 全 局 状态 时 ， 又 会 
出 现 多 线程 编程 中 所 有 的 传统 同步 问题 。 让 我 们 从 该 管道 的 一 个 简单 版 
本 起 步 ， 逐 渐 编 号 出 完整 的 代码 。 





class UsingBlocking(object): 
@defer.inlineCallbacks 
def process_item(self, item, spider): 
price = item["price"][@] 
out = defer.Deferred() 
reactor.callInThread(self._do_ calculation, price, out) 


item["price"][@] = yield out 


defer.returnValue(item) 


def do _calculation(self, price, out): 
new_price = price + 1 
time.sleep(@.10) 
reactor.callFromThread(out.callback, new_price) 





在 前 面 的 管道 中 ， 我 们 看 到 了 实际 运行 的 基本 原 语 。 对 于 每 个 Item 
， 我 们 抽取 其 价格 ， 并 希望 使 用 do_calculation() 方法 处 理 它 。 该 
方法 使 用 了 一 个 阻塞 操作 time.sleep() 。 我 们 将 使 
用 reactor .callInThread() 调用 把 它 放 到 另 一 个 线程 中 运行 。 其 
中 ， 被 调用 的 函数 以 及 传 给 该 函数 的 任意 数量 的 参数 将 会 作为 参数 。 显 
然 ， 我 们 不 只 传递 了 price ， 还 创建 并 传递 了 一 个 名 为 out 的 延迟 操 
作 。 当 do_ calculation() 完成 计算 时 ， 我 们 将 使 用 out 回 调 返 回 
值 。 在 下 一 步 中 ， 我 们 对 这 个 延迟 操作 执行 了 yield 处 理 ， 并 为 价格 设置 


了 新 值 ， 最 后 返回 Item 。 


在 _do calculation() 中 ， 注 意 到 有 一 个 简单 的 计算 一 一 价格 自 
增 1， 然 后 是 100 坚 秒 的 睡眠 。 这 是 非常 多 的 时 间 ， 如 果 在 reactor 线 程 中 
调用 ， 它 将 使 我 们 每 秒 处 理 的 页 数 无 法 超过 10 页 。 通 过 使 其 在 其 他 线程 
中 运行 ， 束 不 再 有 这 个 问题 了 。 任 务 将 会 在 线程 池 中 排队 ， 每 待 出 现 可 
用 的 线程 ,一旦 进入 线程 执行 ， 该 线程 就 将 睡眠 100 毫 秒 。 最 后 一 步 是 
触发 out 回调 。 正 常情 况 下 ， 可 以 使 用 out.callback(new_price)， 
不 过 由 于 现在 处 于 另 一 个 线程 中 ， 这 种 方法 不 再 安全 。 如 果 这 样 做 ， 会 
导致 延迟 操作 的 代码 和 Scrapy 的 功能 会 从 男 一 个 线程 调用 ， 人 述 早 会 出 现 
错误 的 数据 。 替 代 方 案 是 使 用 reactor.callFromThread() ， 同 样 ， 
也 是 将 函数 作为 参数 ， 并 将 任意 数量 的 额外 参数 传 到 函数 中 。 该 函数 将 
会 排队 ， 由 reactor 线 程 调用 ; 而 另 一 方面 ， 会 解除 process_item() 对 
象 yield 操作 的 阻塞 ， 为 该 Item 恢复 Scrapy 操 作 。 


如 果 有 全 局 状态 (比如 计数 器 、 移 动 平均 值 等 ;的话 ， 那 么 
在 _do_calculation() 中 使 用 它们 会 发 生 什 么 呢 ? 例如 ， 我 们 添加 两 
个 变量 一 一 beta 和 delta ， 如 下 所 示 。 





class UsingBlocking(object): 
def init (self): 
self.beta, self.delta = 6, © 


def _do_calculation(self, price, out): 
self.beta += 1 
time.sleep(@.0e1) 
self.delta += 1 
new_price = price + self.beta - self.delta + 1 
assert abs(new_price-price-1) < 0.01 


time.sleep(@.10)... 


| 


上 面 的 代码 存在 问题 ， 我 们 会 得 到 断言 错误 。 这 是 因为 如 果 一 个 线 
程 在 self.beta 和 self.delta 之 间 切 换 ， 而 另 一 个 线程 使 用 这 些 
beta/delta 的 值 恢 复 计算 价格 ， 那 么 会 发 现 它们 处 于 不 一 致 的 状态 

(beta 比 delta A) ， 因 此 ， 会 计算 出 错误 的 结果 。 短 暂 的 睡眠 使 该 
问题 更 容易 产生 ， 不 过 即便 没有 它 ， 竞 态 条 件 也 将 很 快 出 现 。 为 了 避免 
此 类 问题 发 生 ， 必 须 使 用 锁 ， 比 如 使 用 Python 的 threading.RLock( ) 
递归 锁 。 当 使 用 锁 时 ， 我 们 可 以 确信 不 会 存在 两 个 线程 同时 执行 其 保护 
的 临界 区 的 情况 。 








class UsingBlocking(object): 
def _init__(self): 


self.lock = threading.RLock() 
def do _calculation(self, price, out): 


with self.lock: 
self.beta += 1 


new_price = price + self.beta - self.delta + 1 


assert abs(new_price-price-1) < 0.01 ... 





前 面 的 代码 现在 是 正确 的 。 请 记 住 我 们 并 不 需要 保护 整 段 代码 ， 只 
需 履 兰 全 局 状态 的 使 用 就 够 了 。 


Q 
本 示例 的 完整 代码 位 于 


ch@9/properties/p roperties/pipelines/computation.py 文件 
中 。 








要 想 使 用 该 管道 ， 只 需 在 settings.py 文件 中 将 其 添加 
到 ITEM_PIPELINES 设置 即 可 ， 如 下 所 示 。 


ITEM PIPELINES = { ... 
'properties.pipelines.computation.UsingBlocking': 500, 





TY DROP ISR Te. RTU, EENT 








LOOSE BY, ANIL EAT THe AC Hb Bt LP RE ANE, BY BERD 25-item 
ELA 


9.4.2 ”使 用 二 进 制 或 脚本 的 管道 


对 于 一 个 遗留 功能 来 说 ， 最 不 可 知 的 接口 就 是 独立 的 可 执行 程序 或 
脚本 。 它 可 能 需要 几 秒 钟 时 间 启 动 〈 比 如 从 数据 库 中 加 载 数据 ) ， 不 过 
在 这 之 后 ， 它 可 能 会 在 一 小 段 延 时 内 处 理 许多 值 。 即 使 对 于 这 种 情况 ， 
Twisted 仍 然 能 够 覆盖 。 我 们 可 以 使 用 reactor .spawnProcess() API 以 
及 相关 的 protocol.ProcessProtocol 运行 任何 类 型 的 可 执行 程序 。 

来 看 一 个 例子 ， 该 示例 的 脚本 如 下 所 示 。 








#!/bin/bash 


trap "" SIGINT 


sleep 3 


while read line 


do 


# 4 per second 


Sleep 0.25 


awk "BEGIN {print 1.20 * $line}" 


done 





这 是 一 个 简单 的 bash 脚 本 。 当 它 司 动 后 ， 会 茶 用 Ctrl + C 。 这 是 为 
了 解决 Ctrl + C 派生 到 子 进 程 后 过 早 终止 ， 导 致 Scrapy 目 身 无 法 停止， 
无 限 等 待 子 进程 返回 结果 的 系统 特性 。 茶 用 Ctrl + C 后 ， 脚 本 将 会 睡 虐 
3 秒 钟 ， 以 模拟 局 动 时 间 。 然 后 脚本 会 从 输入 中 读 取 行 ， 等 待 250 坚 秘 ， 
再 返回 结果 价格 ， 该 计算 使 用 Linux 的 awk 命令 将 原 值 乘 以 1.2 倍 。 该 脚 
本 的 最 大 吞吐 量 是 每 秒 4 个 Item 。 可 以 使 用 一 个 简短 的 会 话 对 其 进行 测 
试 ， 如 下 所 示 。 











$ properties/pipelines/legacy.sh 


12 <- If you type this quickly you will wait ~3 seconds to get results 


14.40 


13 <- For further numbers you will notice just a slight delay 


15.60 





由 于 Ctrl + C 被 禁用 ， 我 们 必须 使 用 Ctrl + D 终止 会 话 。 不 错 ! AD 
么 ， 我 们 要 如 何在 Scrapy 中 使 用 该 脚本 呢 ? 仍然 从 一 个 简化 的 版 本 起 


LV o 


N 





class CommandSlot(protocol.ProcessProtocol): 
def _ init (self, args): 
self. queue = [] 
reactor.spawnProcess(self, args[@], args) 


def legacy _calculate(self, price): 
d = defer.Deferred() 
self. queue. append(d) 
self.transport.write("%f\n" % price) 
return d 


# Overriding from protocol.ProcessProtocol 
def outReceived(self, data): 


"""Called when new output is received""" 
self. queue.pop(@).callback(float(data)) 


class Pricing(object): 
def init (self): 
self.slot = CommandSlot(['properties/pipelines/legacy.sh']) 


@defer.inlineCallbacks 
def process_item(self, item, spider): 
item["price"][@] = yield self.slot.legacy_calculate(item["price"][@ 


defer.returnValue(item) 





我 们 可 以 在 这 里 找到 名 为 Commandslot 的 ProcessProtocol 的 定 
义 ， 以 及 Pricing MEH. #F__init_Q 中 ， 我 们 创建 了 新 的 
CommandSlot ， 其 构造 方法 初始 化 了 一 个 空 队列 ， 并 使 
用 reactor.spawnProcess() 启动 了 一 个 新 的 进程 。 该 调用 将 从 进程 
中 传输 和 接收 数据 的 ProcessProtocol 作为 第 一 个 参数 。 在 本 例 中 ， 
该 值 为 self ， 因 为 spawnProcess() 是 在 protocol 类 中 进行 调用 的 。 





第 二 个 参数 是 可 执行 程序 的 名 称 。 第 三 个 参数 args 将 该 二 进 制 程序 的 
所 有 命令 行 参 数 作为 字符 溃 列 表 保留 


在 管道 的 process_item() 中 ， 基 本 上 将 所 有 工作 都 委托 给 
CommandSlot 的 legacy_calculate() 方法 ， 它 将 返回 一 个 延迟 操 
作 ， 并 执行 yield 操作 。legacy_calculate() 创建 了 一 个 延迟 操作 ， 
使 其 排队 ， 然 后 使 用 transport .write() 将 价格 写 入 到 进程 当 
H, transport 由 ProcessProtocol 提供 ， 用 于 让 我 们 和 进程 进行 通 
言 。 无 论 我 们 何 时 从 进程 中 接收 到 数据 ， 都 会 调用 outReceived() 。 
通过 延迟 操作 排队 ， 以 及 按 顺 序 处 理 的 shell 脚 本 ， 我 们 可 以 从 队列 中 只 
弹出 最 旧 的 延迟 操作 ， 使 用 接收 到 的 值 触发 它 。 到 此 为 止 。 我 们 可 以 通 
过 在 ITEM_PIPELINES 中 添加 它 的 方式 ， 局 动 该 管道 ， 并 像 平 时 那样 运 
AT e 


—_~ 


ITEM_PIPELINES 
"properties.pipelines.legacy.Pricing': 600, 





WREST, MERMERE EE. WREE RII 
ADEE RCA HLS, RE T AER ETA EJEA Atem, HENKKA 
量 ， 我 们 所 能 做 的 就 是 对 管道 进行 一 些 修改 ， 人 允许 该 类 并 行 运行 多 个 ， 
如 下 所 示 。 








class Pricing(object): 
def _init__(self): 
self.concurrency = 16 
args = ['properties/pipelines/legacy.sh' ] 
self.slots = [CommandSlot(args) 
for i in xrange(self.concurrency) | 
self.rr = 6 


@defer.inlineCallbacks 
def process_item(self, item, spider): 
slot = self.slots[self.rr] 
self.rr = (self.rr + 1) % self.concurrency 
item["price"][@] = yield 
slot.legacy_calculate(item["price"][@]) 
defer.returnValue(item) 








我 们 将 其 修改 为 月 动 16 个 实例 ， 并 以 轮 询 的 方式 为 每 个 实例 发 送 价 
格 。 该 管道 现在 提供 了 每 秒 16x4 = 64 个 item 的 吞吐 量 。 我 们 可 以 通过 一 
个 快速 仆 取 来 确认 ， 如 下 所 示 。 





$ scrapy crawl easy -s CLOSESPIDER_ITEMCOUNT=1666 


Scraped... 


0.00 s 


Scraped... 


1.48 s 


Scraped... 


0.52 s 


0.0 items/s, avg latency: 0.00 s and avg time in pipelines: 


21.0 items/s, avg latency: 2.20 s and avg time in pipelines: 


24.2 items/s, avg latency: 1.16 s and avg time in pipelines: 


延 时 和 预期 一 样 ， 增 长 到 250 坚 秒 ， 不 过 吞吐 量 仍然 是 每 秒 25 个 


item. 








请 注意 ， 前 面 的 方法 中 使 用 了 transport .write() 将 shell 脚 本 输 
入 中 的 所 有 价格 排 入 队列 。 对 于 你 的 应 用 而 言 ， 这 种 方式 可 能 合适 ， 也 
可 能 不 合适 ， 尤 其 是 当 它 使 用 了 更 多 的 数据 而 不 仅仅 是 几 个 数字 时 。 本 
例 完 整 代码 会 将 所 有 值 和 回调 排 入 队列 ， 并 且 只 有 在 前 一 次 结果 被 接收 
后 ， 才 会 问 脚本 发 送 新 值 。 你 会 发 现 这 种 方式 对 你 的 遗留 应 用 更 加 友 
好 ， 不 过 也 增添 了 一 些 复杂 上 度 。 




















95 本章 小 结 


本 章 讲解 了 一 些 复杂 的 Scrapy 管 道 。 到 目前 为 止 ， 我们 已 经 学 习 了 
Twisted 编 程 方面 所 有 可 能 需要 的 内 容 ， 并 且 知 道 了 如 何 实现 进程 、 使 
用 Item 进 程 管道 等 复杂 功能 。 我 们 通过 在 延 时 和 吞吐 量 方面 添加 更 多 管 
道 阶 段 ， 看 到 了 性 能 是 如 何 变化 的 。 通 常情 况 下 ， 延 时 和 吞吐 量 被 认为 
是 成 反比 的 ， 不 过 这 是 建立 在 常数 并 发 的 假设 下 的 (例如 线程 的 数 例 有 
限 〉。 在 我 们 的 例子 中 ， 我 们 从 N = S :T= 25 -0.77 2 19 开 始 ， 在 添加 
管道 后 ， 最 终 达到 N = 25-3.33 2 83， 并 且 没 有 任何 性 能 问题 。 这 就 是 
Twisted 编 程 的 力量 ! 现在 我 们 可 以 进入 第 10 章 ， 使 Scrapy 的 性 能 更 加 完 
FE 











第 10 瘟 ”理解 Scrapy 性 能 





通常 情况 下 ， 性 能 很 容易 出 现 问题 。 对 于 Scrapy 来 襄 ， 性 能 就 不 只 
是 容易 出 现 问 题 了 ， 而 是 几乎 肯定 会 出 现 ， 因 为 它 有 很 多 有 迟 常理 的 行 
为 。 除 非 你 对 Scrapy 内 部 有 非常 好 的 理解 ， 否 则 你 会 发 现 ， 即 使 非常 努 
力 地 优化 性 能 ， 也 很 可 能 得 不 到 收益 。 这 是 使 用 高 性 能 、 低 延迟 以 及 高 
并 发 环境 复杂 性 的 一 部 分 。 在 优化 瓶 贷 性 能 时 ， 阿 姆 达尔 定律 仍然 是 正 
确 的， 不 过 除非 你 能 指明 真正 的 瓶颈 所 在 ， 人 否则 在 系统 其 他 任何 部 分 的 
优化 都 无 法 增长 每 秒 能 够 抓 取 的 item 数 量 〈 吞 吐 量 ) 。 我 们 可 以 从 
Goldratt 博 士 经 典 的 The Goal 一 书 中 获得 更 多 的 感知 ， 这 本 商务 书籍 通 
过 优秀 的 隐喻 对 钵 颈 、 延 迟 和 吞吐 量 的 理念 进行 了 半 释 。 相 同 的 理念 同 
样 也 适用 于 软件 。 本 草 将 帮助 你 找 出 Scrapy 配 置 中 的 瓶颈 ， 以 及 避免 出 
现 明 显 的 错误 。 














请 注意 本 章 是 一 个 进 阶 章节 ， 其 中 会 涉及 一 些 数学 知识 。 计 算 将 会 
比较 简单 ， 并 且 会 附 有 用 于 展示 相同 概念 的 图 表 。 如 果 你 不 喜欢 数学 ， 
只 珊 忽 略 掉 公 式 即 可 ， 你 仍然 能 够 获得 Scrapy 性 能 如 何 工 作 的 重要 领 


悟 。 





10.1 Scrapy 引 党 一 一 一 种 直观 方式 


并 行 系统 看 起 来 与 管道 系统 很 相似 。 在 计算 机 科学 中 ， 我 们 使 用 队 
列 符号 来 表示 队列 以 及 处 理 中 的 元 素 〈( 见 图 10.1 左 侧 ) 。 队 列 系统 的 基 
本 法 则 是 利 特 尔 法 则 ， 该 法 则 认为 在 稳定 状态 下 ， 队 列 系统 中 的 元 素数 





N) 等 于 系统 吞吐 量 (T) 乘 以 总 排队 /服务 时 间 (S) ， 即 N = 工 : 








E 
S。 另 外 两 种 形式 是 : T= N/S 以 及 S = N/T， 在 计算 中 同样 有 用 。 
队列 理论 管道 
MWO = = = 
aE a —— 
z a =, 
E ite ihe 
N=8 R N=16 R N=32 R 
利 特 而 法 则 : N=T"S S=.25 s S=.25 s S=.25 s 
T=32 R/s T=64 R/s T=128 R/s 








fats 3 

















图 10.1 利 特 尔 法 则 、 队 列 系统 以 及 管道 


IP 


在 管道 的 几何 形状 中 也 有 相似 的 法 则 ( 见 图 10.1 右 侧 ) 。 管 道 容 量 
CV) 等 于 管道 长 上 度 L 乘 以 横 截面 面积 CA) ， 即 V =L:A。 

如 果 我 们 想象 长 度 表 示 服 务 时 间 (L~S) ， 容 量 表示 处 理 系 统 的 元 
AMS CV~N) ， 横 截面 面积 表示 吞吐 量 (A~N) ， 那 么 利 特 尔 法 则 
和 容量 公式 实际 是 相同 的 事情 。 














A 
这 个 类 比 有 道理 吗 ? 答案 是 差不多 。 如 果 我 们 将 工作 单位 想象 为 小 滴 液 
体 ， 以 恒定 速率 在 管道 内 部 移动 ， 那 么 L 一 S 绝 对 有 意义 ， 因 为 管道 越 长 ， 水 









































全 与 这 


滴 移 动 花费 的 时 间 越 多 。V~N 同 样 有 音义 ， 因 为 管道 越 大 ， 能 够 容纳 的 水 
滴 越 多 。 烦 人 的 是 ， 我 们 还 可 以 通过 施加 更 大 压力 的 方式 压 入 更 多 水 滴 。A 
一 T 是 不 太 满足 类 比 的 一 点 。 在 管道 中 ， 实 际 否 叶 量 ， 即 每 秒 进出 管道 的 水 
滴 数 量 ， 被 称 为 “体积 流量 >”， 除 非 满足 特定 条 件 〔 孔 口 》， 否 则 其 与 A 成 














































































































正比 ， 而 不 是 A。 这 是 因为 更 宽 的 管道 不 只 意味 着 有 更 多 的 液体 流出 ， 还 会 
使 液体 流动 更 快 ， 因 为 管 壁 之 间 存 在 更 大 的 空间 。 不 过 为 了 本 章 的 学 习 ， 我 
们 可 以 忽略 这 些 技术 细节 ， 而 是 假设 生活 在 一 个 理想 的 世界 中 ， 在 这 里 压力 





















































和 速度 都 是 常量 ， 并 且 吞 吐 量 与 横 截 面 面 积 直 接 成 正比 。 


























利 特 尔 法 则 和 这 个 简单 的 体积 公式 非常 相似 ， 这 就 使 得 该 管道 模 
型 "非常 直观 有 用 。 让 我 们 更 详细 地 看 一 下 图 10.1 中 的 示例 EN -B 
设 管道 系统 表示 Scrapy 的 下 载 器 。 第 一 个 非常 < 细 ? 的 下 载 器 ， 其 总 体积 / 
并 发 级 别 CON) 可 能 是 8 个 并 发 请 求 。 管 道 长 度 /延迟 (S) 对 于 一 个 快速 
的 网 站 来 说 ， 可 能 S=250ms。 在 给 定 N 和 S 时 ， 现 在 可 以 计算 处 理 元 素 的 
体积 /吞吐 量 ， 每 秒 请 求 数 为 T= N/S = 8/ 0.25 = 32。 











你 会 发 现 延 迟 经 常 是 我 们 无 法 控制 的 ， 因 为 它 依赖 于 远 端 服 务 器 的 
性 能 以 及 网 络 的 延迟 。 我 们 比较 容易 控制 的 是 下 载 嚣 中 并 发 (N) 的 级 
别 ， 可 以 将 其 从 8 增长 到 16 或 32 个 并 发 请 求 ， 即 10.1 图 中 的 第 二 个 和 第 
三 个 管道 。 对 于 常量 的 长 度 〈 超 出 我 们 控制 范围 之 外 ) ， 可 以 通过 只 增 
加 横 截 面 面 积 的 方式 增长 体积 ， 也 就 是 说 增加 吞吐 量 ! 按照 利 特 尔 法 
则 ，16 个 并 发 请 求 时 ， 我 们 得 到 的 每 秒 请 求 数 为 T= N/S = 16/0.25 = 
64 个 ， 而 在 32 个 并 发 请 求 时 ， 我 们 得 到 的 每 秒 请 求 数 是 T=N/S= 32/ 
0.25 = 128 个 。 太 好 了 ! 我 们 似乎 可 以 通过 增加 并 发 的 方式 ， 使 系统 无 
限 快 。 在 急于 得 出 这 样 的 结论 之 前 ， 还 需要 考虑 队列 系统 级 联 的 影响 。 





10.1.1 级 联 队 列 系统 


当 将 不 同 横 和 截面 面积 /吞吐 量 的 几 个 管道 依次 连接 起 来 时 ， 可 以 很 
直观 地 理解 整个 系统 的 流量 将 由 最 罕 鸭 《最 小 吞吐 量 : T) 管道 所 限制 
( 见 图 10.2) 。 














图 10.2 不 同 容量 的 级 联 队 列 系统 











你 还 可 以 观 穴 到 最 罕 管 道 《 即 瓶颈 ) 的 位 置 ， 决 定 了 其 他 管道 是 如 
何 “ 填 满 * 的 。 如 末 考 虑 到 与 系统 内 存 需 求 相关 的 填充 ， 就 会 意识 到 瓶颈 
的 位 置 是 非常 重要 的 。 我 们 最 好 通过 配置 保持 管道 充满 ， 且 单个 工作 单 
元 的 花 销 最 少 。 在 Scrapy 中 ， 一 个 工作 单元 〈 疏 取 一 个 页 面 ) 主要 是 由 
Petar HURL OLS) 以 及 下 载 后 的 URL 加 上 服务 器 啊 应 〈 较 
大 ) 组 成 。 























这 就 是 为 什么 在 Scrapy 系 统 中 ， 通 种 将 瓶颈 放置 在 下 载 器 中 。 














10.1.2 ”定义 瓶颈 


使 用 管道 系统 作为 类 比 的 一 个 非常 重要 的 好 处 是 ， 它 在 定义 瓶颈 的 
过 程 中 更 加 直观 。 如 果 观 察 图 10.2 就 会 发 现 ,“ 浇 贷 * 前 的 所 有 地 方 痢 是 


满 的 ， 而 之 后 的 所 有 地 方 都 不 是 。 





好 消 妃 是 ， 在 大 多 数 系统 中 ， 可 以 相对 容易 地 使 用 系统 度量 监控 队 
列 系 统 是 如 何 填 满 的 。 通 过 仔细 检查 Scrapy 的 队列 ， 我 们 可 以 了 解 瓶 颈 
在 什么 地 方 ， 如 宁 发 现 不 在 下 载 右 中 ， 则 可 以 调整 设置 让 其 变 为 下 载 
项 。 没 有 改善 瓶颈 的 任何 改进 都 不 会 带 来 吞吐 量 的 收益 。 如 果 修 改 系统 
其 他 部 分 ， 只 会 让 事情 变 得 更 糟 ， 很 有 可 能 将 瓶颈 转移 到 别 的 地 方 。 这 
个 感觉 有 点 像 退 尾 ， 可 能 需要 很 长 时 间 ， 并 且 会 令 你 感到 绝望 。 你 必须 
章 循 系统 方法 ， 定 义 瓶 宽 ， 并 且 需 要 在 修改 任何 代码 或 配置 之 前 , “ 知 
道 锤子 应 该 击 中 哪里 ”。 你 在 大 部 分 例子 中 《包括 本 书 的 大 多 数 例子 ) 
可 以 看 到 ， 瓶 颈 不 是 总 在 人 们 期 望 的 地 方 出 现 。 











10.1.3 ”Scrapy 性 能 模型 


让 我 们 回 到 Scrapy， 详 细 看 一 下 其 性 能 模型 〈 见 图 10.3) 。 





调度 器 
lenCengine.slot.scheduler.mqs) 
lenCengine.slot.scheduler.dqs) 


er’ http: ©. er?” — 限 流 器 
engine.scraper.slot.active_size 
F, 下 载 器 
len(engine.downloader.active) 


请 求 











CONCURRENT_REQUESTS 
CONCURRENT_REQUESTS_PER_DOMAIN 
CONCURRENT_REQUESTS_PER_IP 
































—— =e) | Re 
J A | t | 
利用 率 。 使 用 了 | Z | 
Linux 的 top 命 令 í | 
—— r 
: ~~ ltems 
stats.get_value('item_scraped_count') 








Item 处 理 管道 


engine.scraper.slot.itemproc_size 


ER 








图 10.3 ”Scrapy 性 能 模型 


Scrapy 包 含 如 下 组 成 部 分 。 


。 fas: 在 这 里 ， 多 个 请 求 会 排队 等 竺 下 载 器 处 理 。 它 们 主要 由 


URL 组 成 ， 因 此 会 十 分 紧凑 ， 这 就 意味 着 即使 拥有 大 量 URL 也 不 会 
对 系统 有 很 大 伤害 ， 并 且 可 以 让 我 们 在 传 入 不 规则 请 求 流 的 情况 下 


能 够 充分 利用 下 载 器 。 
o 限 流 器 : 这 是 抓 取 过 程 〈 大 储 水 池 ) 反馈 的 安全 | 阀 ， 如 果 正 在 执 


行 的 啊 应 的 总 计 大 小 超过 5MB， 那 么 它 会 让 前 往 下 载 右 的 后 续 请 求 


停止 。 这 可 能 会 导致 不 可 预料 的 性 能 起 伏 。 


。 Pekar: 这 是 Scrapy 关 于 性 能 最 重要 的 组 成 部 分 。 它 对 能 够 并 行 执 


行 的 请 求 的 数量 有 着 复杂 的 限制 。 其 延迟 〈 管 道 长 度 ) 等 于 远程 服 
ies 的 时 间 ， 加 上 所 有 网 络 /操作 系统 | 延 
。 我 们 可 以 调整 并 行 请 求 的 数量 ， 不 过 通常 情况 下 ， 我 们 几乎 无 

ae 下 载 器 的 容量 由 CONCURRENT_REQUESTS* 设置 限 

制 ， 我 们 将 会 很 快 看 到 。 

ER: 这 是 抓 取 过 程 中 将 啊 应 转 为 Item 和 后 续 请 求 的 部 分 。 同 时 
这 也 是 我 们 编写 的 部 分 ， 通 常情 况 下 ， 只 要 遵照 规则 ， 它 们 就 不 会 
是 性 能 瓶颈 

Item 管道 : 这 是 我 们 编写 的 代码 的 第 一个 分 。 我 们 的 爬虫 可 以 

对 每 个 请 求生 成 上 百 个 Item ， 同 一 时 刻 只 会 处 

理 CONCURRENT_ITEMS 个 。 该 值 十 分 重要 ， 因 为 假设 你 在 管道 中 要 

处 理 数据 库 访问 ， 那 么 使 用 默认 值 (100) 束 可 能 会 过 高 ， 从 而 在 

无 意 间 拖 垮 数据 库 。 


慌 虫 和 管道 都 应 该 使 用 异步 代码 ， 并 且 在 必要 时 引发 更 多 的 延迟 ， 
但 不 应 因此 成 为 瓶颈 。 极 少 情况 下 ， 我 们 的 爬虫 /管道 会 处 理 非常 繁重 
的 事情 。 如 果 发 生 此 种 情况 ， 那 么 服务 器 的 CPU 可 能 会 成 为 瓶颈 


10.2 ”使 用 telnet 获 得 组 件 利 用 率 


想 要 理解 Request/Item 流 是 如 何 通 过 管道 的 ， 我 们 不 会 真得 去 测 
量 流量 (尽管 这 可 能 会 是 一 个 很 棒 的 功能 ) ， 而 是 使 用 更 容易 的 方式 测 


量 Scrapy 的 每 个 处 理 阶段 中 存在 多 少 流 体 ， 
名 Request/Response/Item 。 





我 们 可 以 通过 Scrapy 运 行 的 Telnet 服 务 获 取 性 和 


ČI 
T 
给 
A 
E 


使 用 telnet 命 令 连 接 到 6623 端口 。 然 后 ， 将 会 在 Scrapy 中 得 到 一 个 
Python 提示 符 。 需 要 小 心 的 是 ， 如 采 你 在 这 里 执行 了 某 些 阻塞 操作 ， 例 
如 time.sleep() ， 它 将 会 中 止 仆 虫 功能 。 内 置 的 est() 函数 可 以 打印 
出 一 些 感 兴趣 的 度量 。 其 中 一 些 或 者 很 专用 ， 或 者 能 够 从 几 个 核心 度量 
推 类 出 来 。 在 本 章 剩 余部 分 只 会 展示 后 者 。 让 我 们 从 一 个 示例 运行 中 了 
解 它 们 。 当 运行 肘 虫 时 ， 可 以 在 开发 机 中 打开 第 二 个 终端 ， 通 过 telnet 
命令 连接 6823 端口 ， 并 运行 est() 。 





Q 


本 章 代 码 位 于 ch16 目录 ， 其 中 本 例 位 于 ch16/speed 目录 。 


























在 第 一 个 终端 中 ， 运 行 如 下 代码 。 





$ pwd 


/root/book/ch10/speed 


scrapy.cfg speed 


$ scrapy crawl speed -s SPEED_PIPELINE_ASYNC_DELAY=1 


INFO: Scrapy 1.6.3 started (bot: speed) 





现在 先 不 用 管 scrapy crawl speed 是 什么 ， 以 及 其 参数 表示 什 
么 。 本 章 后 续 部 分 会 详细 解释 这 些 。 现 在 ， 在 第 二 个 终端 上 上， 运行 如 下 
命令 : 





$ telnet localhost 6023 


>>> est() 


len(engine.downloader.active) 


len(engine.slot.scheduler.mqs) 


len(engine.scraper.slot.active) 


engine.scraper.slot.active_size 


engine.scraper.slot.itemproc_size 


: 16 


: 4475 


: 115 


: 117760 


: 105 


So ëO 


然后 在 第 二 个 终端 按 下 Ctrl + DD 退出 Telnet， 回 到 第 一 个 终端 ， 按 
下 Ctrl + C 停止 爬虫 。 


Q 

我 们 在 这 里 忽略 了 dqs 。 如 果 通 过 JOBDIR 设置 启用 了 持久 化 支持 的 
话 ， 还 会 得 到 非 零 的 dqs (len(engine.slot.scheduler.dqs) ) ， 你 需 
要 将 其 添加 到 mqs 的 大 小 中 ， 以 继续 后 续 分 析 。 











我 们 来 看 一 下 本 例 中 的 这 些 核心 度量 都 表示 什么 。mqs 表示 目前 在 
调度 器 中 还 有 很 多 等 待 〈4475 个 请 求 ) 。 还 可 
以 。len(engine.downloader.active) 表示 目前 有 16 个 请 求 正 在 下 载 
器 中 被 下 载 。 这 和 我 们 在 息 虫 CONCURRENT_REQUESTS 设置 中 设 定 的 值 
相同 ， 所 以 此 处 非常 好 。1len(engine.scraper.slot.active) 告知 
我 们 正在 进行 抓 取 处 理 的 响应 有 115 个 。 通 过 
(engine.scraper.slot.active size) ， 我 们 知道 这 些 响应 大 小 总 
计 为 115kb。 在 这 些 响应 中 ， 有 105 个 Item 此 时 正在 通过 管道 处 理 ， 可 
以 从 (engine.scraper.slot.itemproc_size) 看 出 来 ， 这 就 意味 着 
剩余 的 10 个 请 求 目前 正在 讨 虫 中 处 理 。 总 体 来 资 ， 我 们 可 以 看 出 瓶颈 似 
乎 在 下 载 器 中 ， 在 其 之 前 的 工作 队列 (mgs) 非常 庞大 ， 但 下 载 器 已 经 
mW; 而 在 其 之 后 ， 我 们 有 痢 数量 很 高 但 又 比较 稳定 的 任务 
《可 以 通过 多 次 执行 est() 来 确认 此 项 ) 。 























我 们 感 兴趣 的 另 一 个 信息 元 是 stats 对 象 ， 即 通常 在 疏 取 完成 后 打 
印 的 信息 。 我 们 可 以 在 Telnet 中 ， 通 过 stats .get_stats() ， 以 字典 的 
形式 在 任何 时 间 访 问 它 ， 并 且 可 以 通过 p() 函数 打印 更 优雅 的 格式 。 





$ p(stats.get_stats()) 


{'downloader/request_bytes': 558330, 


"item_scraped_count': 2485, 





对 我 们 来 说 ， 目 前 最 感 兴趣 的 度量 是 item_scraped_count ， 它 可 


以 通过 stats.get_value('item_scraped_count ' ) 直接 访问 。 该 度 
量 告知 我 们 到 目前 为 止 有 多 少 item 已 经 被 抓 取 ， 它 应 当 以 系统 吞吐 量 
(Item / 秒 ) 的 速率 增长 。 


10.3 ”基准 系统 


为 了 第 10 章 ， 我 编写 了 一 个 简单 的 基准 系统 ， 可 以 让 我 们 在 不 同 场 
景 下 评估 性 能 。 该 系统 的 代码 比较 复杂 ， 你 可 以 
在 speed/spiders/speed.py 中 找到 它 ， 但 我 不 会 详细 讲解 该 代码 。 


该 系统 包含 如 下 功能 。 


。 我们 的 Web 服 务 器 上 http://localhost:9312/benchmark/... 
目录 的 处 理 器 。 可 以 通过 调整 URL 参 数 /Scrapy 设 置 控 制 伪 站 点 的 结 
构 〈 见 图 10.4) 以 及 页 面 加 载 速度 。 无 需 担心 细节 ， 我 们 很 快 就 会 
看 到 更 多 示例 。 现 在 ， 可 以 观察 
http://localhost :9312/benchmark/index?p=1 
Ghttp://localhost: 9312/benchmark/ id:3/rr:5/index? 
p=1 的 区 别 。 第 一 个 页 面 加 载 时 间 在 半 秒 之 内 ， 并 且 每 个 详情 页 中 
有 一 个 条 目 ; 而 第 二 个 页 面 需 要 5 秒 时 间 加 载 ， 但 每 个 详情 页 中 包 
含 3 个 条 目 。 我 们 还 可 以 向 页 面 中 添加 一 些 隐藏 的 垃圾 数据 ， 使 其 
更 大 一 些 。 比 如 ,，http://localhost:9312/ 
benchmark/ds:166/ detail?idð=0 。 默 认 情 况 下 (参见 
speed/settings.py ) ， 页 面 演 染 在 SPEED_T_RESPONSE = 
0.125 秒 内 ， 伪 站 点 包含 SPEED_ TOTAL_ITEMS = 5666 个 Item 。 






e 





next 








SPEED_INDEX_POINTAHEAD 





cS localhost:9312/index?p=1 €e C localhost:9312/detail?id0=2 
item 1 。TISPBEED ITEMS PER DETAIL 
item 2 
item 3 


item4 SPEED DETAILS PER INDEX PAGE 


item 5 


next next next -SPEED_ TOTAL_ITEMS 








useful info de 





G view-source:localhost:931.. 


1 <ul><li><h3>I'm 2</h3><div class="info">useful 
info for id: 2</div></li><li><h3>I'm 3</h3> 
<div class="info">useful info for id: 3</div> 
</li><li><h3>I'm 4</h3><div 
class="info">useful info for id: 4</div></li> 


</ul><!-- 


222111111111111111111111111i11111i11 


1i111111--SPEED DETAIL EXTRA SIZE 


图 10.4 我 们 的 基准 系统 创建 的 具有 可 调整 结构 的 伪 站 点 


E ESpeedSpider ， 通 过 控制 SPEED_START_REQUESTS_STYLE ix 
置 伪造 一 些 获 取 start_requests() 的 方式 ， 并 提供 了 一 个 简单 的 
parse_item() 方法 。 默 认 情 况 下 ， 我 们 使 

用 crawler.engine.crawl() 方法 直接 将 所 有 启动 URL 提 供给 
Scrapy 的 调度 器 。 

管道 DummyPipeline 伪造 一 些 处 理 。 它 包含 该 处 理 可 能 导致 的 4 种 
延迟 类 型 : 阻塞 /计算 /同步 延迟 
CSPEED_PIPELINE_BLOCKING_DELAY ， 这 是 一 种 不 好 的 方式 ) 、 
异步 延迟 (SPEED_PIPELINE_ASYNC_DELAY ， 这 是 一 种 可 以 接受 
的 方式 ) 、 使 用 treq ican 
CSPEED_PIPELINE_API_VIA_TREQ ， 这 是 一 种 可 以 接受 的 方式 ) 
以 及 使 用 Scrapy 的 crawler.engine.download() 的 远程 API 调 用 
(SPEED_PIPELINE_API_VIA_DOWNLOADER ， 这 是 一 种 不 太 好 的 
方式 ) 。 默 认 情 况 下 ， 该 管道 不 会 添加 任何 延迟 。 








。 在 settings.py 中 包含 了 一 组 高 性 能 设置 。 所 有 可 能 会 造成 系统 
有 任何 减 慢 的 设置 都 已 经 被 禁用 。 由 于 我 们 只 访问 本 地 服务 器 ， 因 
此 针对 单 域名 请 求 数 的 限制 也 被 禁用 了 。 

。 与 第 8 章 类 似 的 少量 度量 捕获 扩展 。 它 将 周期 性 地 打印 出 核心 度量 


指标 。 





我 们 已 经 在 前 面 的 例子 中 使 用 了 该 系统 ， 不 过 主 我们 重新 运行 一 次 
模拟 ， 并 使 用 Linux 的 时 间 工 具 测 量 完 整 的 执行 时 间 。 可 以 在 如 下 代码 





中 看 到 被 打印 出 来 的 核心 度量 指标 。 





$ time scrapy crawl speed 


INFO: s/edule d/load scrape p/line done mem 


INFO: Q 2) 2) 0 0 (2 


INFO: 4938 14 16 Q 32 16384 


INFO: 4831 16 6 Q 147 6144 


INFO: 119 16 16 © 4849 16384 


INFO: 2 16 12 © 4970 12288 


real @m46.561s 





Column Metric 


s/edule len(engine.slot.scheduler.mqs) 


d/load len(engine.downloader.active) 
len(engine.scraper.slot.active) 


engine.scraper.slot.itemproc_size 
stats.get_value(‘item_scraped_count') 
mem engine.scraper.slot.active_size 





这 种 级 别 的 透明 度 是 非常 明显 的 。 我 缩短 了 列 名 ， 不 过 它们 应 该 仍 
然 能 够 清楚 说 明 含义 。 初 始 时 ， 在 调度 器 中 有 5000 个 URL， 而 在 结束 
时 ， 完 成 列 中 也 有 5000 个 item。 下 载 器 作为 瓶颈 ， 已 经 被 充分 利用 ， 根 
据 设 置 始终 会 有 16 个 活跃 的 请 求 。 抓 取 操 作 主 要 是 爬虫 ， 因 为 如 我 们 
fEp/line 列 所 见 ， 管 道 是 空 的， 由 于 它 通常 是 在 瓶颈 之 后 ， 因 此 虽然 
一 定 程 度 上 被 利用 了 ， 但 是 没有 充分 利用 。 抓 取 5000 个 Item 花费 了 46 
秒 的 时 间 ， 使 用 的 并 发 请 求 N = 16， 即 每 个 请 求 的 平均 时 间 是 46 . 16 / 
5000 = 147ms， 而 不 是 我 们 期 望 的 125ms， 不 过 这 也 还 可 以 接受 。 


10.4 标准 性 能 模型 





标准 性 能 模型 在 Scrapy 功 能 正常 且 下 载 占 为 性 能 和 瓶 贷 时 成 并 。 在 这 
种 情况 下 ， 可 以 在 调度 器 中 看 到 一 些 请 求 ， 而 在 下 载 器 中 则 是 并 发 请 求 








数 的 最 大 值 〈《 见 图 10.5) 。 抓 取 程 序 〈 爬 虫 和 管道 ) 被 轻 度 加 载 ， 并 且 
处 理 中 的 啊 应 数 不 会 持续 增长 。 











2000 URL 2000 URL 
@— CONCURRENT_REQUESTS Æ _ CONCURRENT_REQUESTS 
一 LAY =16 HY =32 
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图 10.5 ”标准 性 能 模型 及 一 些 实验 结果 





有 3 个 主要 设置 用 于 控制 下 载 器 能 力 : CONCURRENT_REQUESTS 
、CONCURRENT_REQUESTS_PER_DOMAIN 以 及 
CONCURRENT_REQUESTS_PER_IP 。 其 中 第 一 个 是 粗 调控 制 。 无 论 如 何 
都 不 会 在 同一 时 间 有 超过 CONCURRENT_REQUESTS 数量 的 请 求 处 于 活跃 
状态 。 而 如 果 你 的 目标 是 单个 域名 或 相对 较 少 的 几 个 域 
名 ，CONCURRENT_REQUESTS_PER_DOMAIN 可 能 会 进一步 限制 活跃 请 求 
的 数量 。 如 果 设 置 了 CONCURRENT_REQUESTS_PER_IP ， 那 
么 CONCURRENT_REQUESTS_PER_DOMAIN 就 会 被 忽略 ， 此 时 有 效 的 限制 
将 会 是 针对 单个 (目标 〉IP 的 请 求 数 。 比 如 ， 当 目标 是 一 些 共 享 主机 站 
点 时 ， 多 个 域名 可 能 会 指向 同一 台 服 务 器 ， 该 设置 可 以 帮助 你 不 会 过 度 
攻击 该 服务 器 





为 了 保持 现在 的 性 能 探索 尽 可 能 简单 ， 我 们 通过 
使 CONCURRENT_REQUESTS_PER_IP 保留 为 默认 值 (0〉 以 禁用 每 个 IP 的 
限制 ， 并 且 设 置 CONCURRENT_REQUESTS_PER_DOMAIN 的 值 为 非常 大 的 


数值 〈1000000) 。 这 样 的 组 合 可 以 有 效 禁 用 针对 IP 和 域名 的 限制 ， 下 
载 器 的 并 发 数量 可 以 完全 由 CONCURRENT_REQUESTS 来 控制 。 





我 们 希望 系统 吞吐 量 依赖 于 下 载 页 面 所 花费 的 平均 时 间 ， 包 括 远 程 
服务 器 部 分 以 及 我 们 的 系统 (Linux, Twisted/Python) 的 延迟 CtJownload 
= tresponse + toverhead ) 。 如 采 能 够 考虑 一 些 局 动 和 结束 时 间 也 是 很 好 
的 。 它 包括 你 得 到 一 个 啊 应 的 时 间 与 其 Item 从 管道 另 一 端 出 来 的 时 间 之 
间 的 间隔 ， 以 及 在 缓存 冷 局 动 时 ， 你 得 到 第 一 个 啊 应 之 前 的 时 间 及 性 能 
较 差 时 的 时 间 。 








总 之 ， 如 果 你 需要 完成 N 个 请 求 的 任务 ， 并 且 我 们 的 谎 虫 已 经 得 到 
了 适当 的 调整 ， 那 么 你 应 该 会 在 下 述 公式 所 得 的 时 间 内 完成 。 


i N. ( be sponse SH Lone rhead ) t 
j* CONCURRENT REQUESTS “t/t 





我 们 无 法 控制 这 些 参数 中 的 大 部 分 ， 这 多 少 让 人 有 些 遗 憾 。 我 们 可 
以 使 用 一 台 更 强大 的 服务 器 来 稍微 控制 tverneod ， 类 似 情况 还 有 kore/kseop 
《该 参 数 几 乎 不 值得 为 之 努力 ， 因 为 我 们 只 会 在 每 次 运行 时 才 会 花费 该 
时 间 ) 。 除 了 对 N 个 请 求 的 给 定 工作 量 有 少许 改善 外 ， 我 们 所 能 细心 调 
整 的 数值 只 有 CONCURRENT_REQUESTS ， 它 通常 依赖 于 我 们 访问 远程 服 
务 器 的 困难 程度 。 如 果 我 们 将 其 设 定 为 一 个 非常 大 的 数值 ， 在 某 一 时 
刻 ， 会 使 服务 器 的 CPU 能 力 或 远程 服务 器 及 时 啊 应 的 能 力 达 到 饱和 ， 也 
就 是 说 ，tiosponse 将 会 突 增 ， 因 为 目标 网 站 对 我 们 实施 了 限 速 、 封 禁 ， 或 
者 我 们 造成 了 目标 网 站 宕 机 。 





让 我 们 运行 一 个 实验 来 检查 我 们 的 理论 。 我 们 将 以 fewonse E 
{0.125s, 0.25s, 05s}. CONCURRENT_REQUESTS € {8, 16, 32, 64} 的 条 件 疏 


取 2000 个 item， 如 下 所 示 。 


$ for delay in 6.125 6.25 6.56; do for concurrent in 8 16 32 64; do 


time scrapy crawl speed -s SPEED _TOTAL_ITEMS=2000 \ 


-S CONCURRENT_REQUESTS=$concurrent -s SPEED_T_RESPONSE=$delay 


done; done 





在 我 的 笔记 本 上 ， 完 成 2000 个 请 求 的 时 间 如 表 10.1 所 示 〈 以 秒 为 时 


DO 


表 10.1 





CONCURRENT_REQUESTS 125ms/ 请 求 | 250ms/ 请 求 | 500ms/ 请 求 





8 36.1 67.3 129.7 





警告 接 下 来 将 会 是 令 人 讨厌 的 计算 ! 你 可 以 略 读本 段 内 容 。 我 
们 可 以 在 图 10.5 中 看 到 部 分 结果 。 通 过 重新 排列 最 后 的 公式 ， 我 们 可 以 
将 其 转换 为 更 加 简单 的 形式 〈 即 》 = toverhead ` X*+ tstarvstop ， 其 中 x= N/ 
CONCURRENT_REQUESTS 和 y = tjop ` X + tresponse ) 。 使 用 最 小 二 乘法 
CExcel 函 数 为 LINEST ) 和 前 面 的 数据 ， 我 们 可 以 计算 得 到 twvernead = 
6ms， 而 tsiarystop = 3-180 toverhead 是 一 个 很 小 的 数值 ， 而 局 动 时 间 却 非常 
显著 ， 不 过 它 文 持 了 数 千 个 UREL 的 长 时 间 运 行 。 因 此 ， 我 们 将 使 用 一 个 
非常 有 用 的 公式 ， 以 请 求 数 / 秒 为 单位 近似 系统 的 吞吐 量 ， 如 下 所 示 。 

N 


tjob 一 tstar t) stop 





通过 运行 N 个 请 求 的 长 时 间 任 务 ， 我 们 可 以 测量 出 fop 的 汇总 时 
间 ， 然 后 直接 计算 T 。 
10.5 解决 性 能 问题 


现在 我 们 应 当 对 系统 预期 拥有 的 性 能 是 什么 有 了 充分 的 了 解 ， 接 下 
来 看 一 下 如 果 没 有 得 到 想 要 的 性 能 时 应 当 如 何 操作 。 我 们 将 通过 探讨 具 
体 症 状 来 展示 不 同 的 问题 案例 ， 执 行 示例 爬虫 进行 复 现 ， 探 讨 根 本 原 








因 ， 最 终 提 供 解决 问题 的 操作 。 和 案例 展示 的 顺序 从 系统 顶层 问题 逐步 到 
低层 次 的 Scrapy 技 术 细 节 。 这 就 意味 着 更 普 壳 的 案例 可 能 会 出 现在 没 那 
么 常见 的 案例 之 后 。 在 探索 你 的 性 能 问题 之 前 ， 请 完整 阅读 本 章 全 部 入 


i 


容 。 





10.5.1 案例 #1: CPU 饱和 


症状 : 在 某 些 情况 下 ， 你 增加 了 并 发 级 别 ， 但 没有 得 到 性 能 提 
升 。 当 降低 并 发 级 别 时 ， 一 切 工作 再 次 回归 预期 〈《 见 图 10.6) 。 你 的 下 
载 器 可 以 被 充分 利用 ， 但 是 似乎 每 个 请 求 的 平均 时 间 出 现 了 激增 。 当 在 
UNIX/Linux 系 统 中 使 用 top 命令 、 在 Power Shell 中 使 用 ps 命令 或 在 
Windows 中 使 用 任务 管理 器 查看 CPU 负载 如 何 时 ， 会 发 现 CPU 负 载 非常 
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图 10.6 当 并 发 增长 到 一 定 程度 后 ， 性 能 趋 于 平缓 








示例 : 假设 运行 了 如 下 命令 。 





$ for concurrent in 25 56 100 156 200; do 


time scrapy crawl speed -s SPEED_TOTAL_ITEMS=5000 \ 


-s CONCURRENT_REQUESTS=$concurrent 


done 





你 得 到 了 其 抓 取 5000 个 URL 的 时 间 。 在 表 10.2 中 ， 期 望 值 一 列 是 基 
于 前 面 得 到 的 公式 计算 所 得 ， 而 CPU 负载 是 通过 top 命令 观察 得 到 的 
《可 以 在 开发 机 中 使 用 第 二 个 终端 运行 该 命令 ) 。 


表 10.2 


期 望 值 | 实际 值 | 期 望 值 与 实际 值 的 
CONCURRENT_REQUESTS ei a 
We 7 








87% 78% 








在 我 们 的 实验 中 ， 由 于 几乎 不 执行 任何 处 理 ， 因 此 能 够 得 到 高 并 
发 。 而 在 一 个 更 复杂 的 系统 中 ， 很 可 能 会 更 早 地 看 到 该 行为 。 


Wie: Scrapy 重 度 使 用 单一 线程 ， 当 达到 很 高 级 别 的 并 发 时 ，CPU 
可 能 会 成 为 瓶 陆 。 假 设 不 使 用 任何 线程 池 ， 那 么 Scrapy 应 当 使 用 的 CPU 
负载 建议 在 80% 一 90%。 请 记 住 你 可 能 在 其 他 系统 资源 上 遇 到 相似 的 问 
题 ， 比 如 网 络 融 宽 、 内 存 或 磁盘 吞吐 量 ， 不 过 这 些 都 很 少见 ， 并 且 会 落 
入 通用 系统 的 管理 范畴 ， 因 此 隋 不 在 这 里 进一步 强调 了 。 





解决 方案 : 通常 假设 你 的 代码 是 有 效 的 。 你 可 以 通过 在 同一 台 服 
务 器 上 运行 多 个 Scrapy 谎 虫 ， 以 使 总 计 并 发 超过 
CONCURRENT_REQUESTS。 这 可 以 帮助 你 利用 更 多 可 用 核心 ， 尤 其 
是 当 管 道 的 其 他 服务 或 其 他 线程 不 使 用 它们 的 时 候 。 如 果 需 要 更 多 的 并 
发 ， 可 以 使 用 多 台 服 务 器 〈 参 见 第 11 章 ) ， 这 种 情况 下 可 能 还 需要 更 多 
可 用 的 资金 、 网 络 带 宽 以 及 磁盘 吞吐 量 。 始 终 检查 CPU 利 用 率 是 你 的 首 
要 约束 。 








10.5.2 ”案例 #2: 代码 阻塞 
症状 : 你 所 观察 到 的 行为 无 法 说 通 。 和 期 望 值 相 比 ， 系 统 非 常 


慢 ， 并 且 奇 怪 的 是 ， 即 使 当 你 改变 CONCURRENT_REQUESTS 的 值 时 ， 速 
度 也 没有 显著 变化 〈 见 图 10.7) 。 下 载 器 看 起 来 总 是 空 的 〈 少 于 
CONCURRENT_REQUESTS ) ， 而 抓 取 程 序 却 有 不 少 响 应 。 











CONCURRENT_REQUESTS 1 (?!) 

















图 10.7 阻塞 代码 以 不 可 预测 的 方式 使 并 发 无 效 





示例 : 你 可 以 使 用 两 个 基准 设 
置 : SPEED_SPIDER BLOCKING_DELAY 和 
SPEED PIPELINE BLOCKING DELAY (它们 具有 相同 的 效果 ) ， 对 每 个 
啊 应 局 用 一 个 100ms 的 阻 罕 。 在 给 定 并 发 级 别 时 ， 我 们 期 望 100 个 URL 应 
当 花 费 2 一 3 秒 ， 但 无 论 CONCURRENT_REQUESTS 的 值 是 多 少 ， 我 们 总 是 
需要 花费 大 约 13 秒 的 时 间 ( 见 表 10.3) 。 





for concurrent in 16 32 64; do 


time scrapy crawl speed -s SPEED_TOTAL_ITEMS=100 \ 


-S CONCURRENT_REQUESTS=$concurrent -s SPEED _SPIDER_BLOCKING_DELAY=0.1 


done 


表 10.3 


CONCURRENT_REQUESTS 总 时 间 ( 秒 ) 





Wie: 任何 阻塞 代码 都 会 立即 抵消 掉 Scrapy 的 并 发 性 ， 本 质 上 相当 
于 设置 CONCURRENT_REQUESTS = 1。 根 据 上 面 的 简单 公式 ，100URL - 
100ms〔 阻 塞 延迟 ) = 10 秒 + tstarwstop ， 充 分 解释 了 我 们 所 看 到 的 延迟 。 


无 论 阻 于 代 码 是 在 管道 中 还 是 在 爬虫 中 ， 你 都 会 发 现 抓 取 程序 可 以 
被 充分 利用 ， 但 其 前 后 的 模块 都 是 空 的。 这 看 起 来 违背 了 前 面 讲 过 的 管 


道 的 物理 现象 ， 不 过 由 于 我 们 已 经 不 再 拥有 一 个 并 发 系统 了 ， 上 所 以 管道 
规则 不 再 适用 。 该 错误 非常 容易 发 生 《 比 如 使 用 阻 竖 API) ， 你 一 定 会 
在 东 一 时 刻 出 现 该 错误 。 你 会 注意 到 类 似 的 讨论 同样 适用 于 复杂 代码 的 
计算 。 你 应 当 为 此 类 代码 使 用 多 线程 ， 正 如 我 们 在 第 9 章 中 所 看 到 的 ; 
或 者 是 在 Scrapy 之 外 进行 批量 处 理 ， 我 们 将 会 在 第 11 章 中 看 到 一 个 相关 
示例 。 


解决 方案 ， 将 假设 你 继承 了 基 人 代码， 并 且 不 清楚 阻 署 代码 位 于 何 
处 。 如 果 该 系统 在 没有 任何 管道 的 情况 下 仍然 可 以 工作 ， 那 么 禁用 这 些 
管道 ， 并 检查 是 否 仍 存在 奇怪 的 行为 。 如 果 仍 存在 ， 那 么 阻塞 代码 位 于 
疏 虫 中 。 如 有 果 不 再 存在 ， 那 么 依次 启用 管道 ， 观 察 问 题 是 否 开始 出 现 。 
如 有 果 该 系统 在 缺少 任何 运行 中 的 模块 的 情况 下 无 法 正常 运转 ， 那 么 可 以 
在 每 个 管道 阶段 的 功能 之 间 添 加 一 些 日 志 消 息 ( 或 插入 虚拟 管道 打印 时 
AX) 。 通 过 检查 日 志 ， 可 以 轻松 检测 出 系统 在 什么 地 方 花费 了 最 多 的 
时 间 。 如 果 硕 望 有 一 个 更 加 长 期 /可 复 用 的 解决 方案 ， 可 以 使 用 虚拟 管 
道 跟 踪 你 的 请 求 ， 在 Request 的 meta 字段 中 为 每 个 阶段 添加 时 间 惟 。 
最 后 ，hook 到 item_scraped 信号 ， 并 记录 时 间 戳 日志。 一 旦 你 发 现 阻 
塞 代 码 ， 则 应 将 其 转换 为 Twisted/ 异 步 代 码 ， 或 使 用 Twisted 的 线程 池 。 
如 有 果 想 要 查看 该 转换 的 效果 ， 可 以 
将 SPEED_PIPELINE_BLOCKING_DELAY 蔡 换 为 SPEED 
PIPELINE_ASYNC_DELAY ， 重 新 运行 前 面 的 示例 。 性 能 的 变化 将 十 分 
TRA. 


























10.5.3 ”案例 #3: 下 载 器 中 的 “垃圾 ” 
症状 : 你 得 到 的 吞吐 量 低 于 预期 。 下 载 器 看 起 来 有 时 会 有 比 








CONCURRENT_REQUESTS 更 多 的 请 求 。 


示例 : 模拟 以 0.25 秒 啊 应 时 间 的 情况 下 载 1000 个 页 面 。 按 照 默 认 的 
16 个 并 发 ， 根 据 公 式 需 要 花费 大 约 19 秒 的 时 间 。 我 们 使 用 一 个 管道 ， 
用 crawler.engine.download() 制造 到 伪造 API 的 额外 HTTP 请 求 ， 其 
啊 应 时 间 在 1 秒 之 内 。 你 可 以 通过 http:// 
localhost:9312/benchmark/ar:1/api?text=hello 进行 尝试 〈 见 
图 10.8) 。 证 我 们 运行 一 个 怜 取 程 序 。 








$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T_ 


RESPONSE=@.25 -s SPEED_API_T_RESPONSE=1 -s SPEED_PIPELINE_API_VIA_ 


DOWNLOADER=1 


s/edule d/load scrape p/line done mem 


968 32 32 32 © 32768 


952 16 Q Q 32 0 


936 32 32 32 32 32768 


real @m55.151s 
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图 10.8 ”由 虚假 API 请 求 数 定 义 的 性 能 


非常 奇怪 ! 我 们 的 任务 不 但 花费 了 预期 的 3 倍 时 间 ， 还 超出 了 下 载 
器 定义 的 CONCURRENT_REQUESTS 所 设 定 的 16 个 活跃 请 求 数 Cd/load 
) 。 下 载 器 显然 是 瓶颈 ， 因 为 它 在 超 负 和 荷 工作 。 我 们 重新 运行 朴 取 程 
序 ， 并 在 另 一 个 控制 台中 打开 到 Scrapy 的 telnet 连 接 。 之 后 ， 就 可 以 查看 
下 载 器 中 有 哪些 请 求 是 活跃 的 了 。 





$ telnet localhost 6023 


>>> engine.downloader.active 


set([<POST http: //web:9312/ar:1/ti:1000/rr:0.25/benchmark/api>, ... ]) 





看 起 来 它 处 理 的 大 部 分 是 API 请 求 ， 而 不 是 下 载 正常 页 面 。 


Wie: 你 可 能 会 认为 没有 人 使 用 crawler.engine.download() 
， 因 为 它 看 起 来 会 比较 复杂 ， 不 过 它 在 Scrapy 的 基 代 码 中 使 用 了 两 次 ， 
分 别 是 robots .txt 中 间 件 和 多 媒体 管道 。 因 此 ， 当 人 们 需要 使 用 Web 
API 时 ， 它 也 会 被 推荐 为 一 种 解决 方案 。 因 为 使 用 它 要 比 使 用 阻 奢 API 
更 好 ， 比 如 我 们 在 前 面 章节 中 看 到 的 流行 的 Python 包 requests ; 而 
有 旦 ,使 用 它 还 会 比 理解 Twisted 编 程 和 使 用 treq 简单 一 些 。 现 在 既然 有 
了 咱们 这 本 书 ， 这 些 就 不 再 是 使 用 它 的 借口 了 。 男 一 方面 ， 该 错误 非常 
难 调试 ， 所 以 应 当 在 研究 性 能 时 主动 检查 下 载 器 中 的 活跃 请 求 。 如 果 发 
现 API 或 多 媒体 URL 不 是 你 爬 取 的 直接 目标 ， 那 么 就 意味 着 某 些 管道 使 
Ħ Į crawler .engine.download() 来 执行 HITP 请 求 。 由 于 我 们 的 
CONCURRENT_REQUESTS 限制 不 适用 于 这 些 请 求 ， 也 就 意味 着 我 们 很 可 
能 看 到 下 载 器 加 载 的 请 求 数 超过 CONCURRENT REQUESTS, FAEK 
有 些 了 矛盾。 除非 虚假 请 求 数 降低 到 CONCURRENT “REQUESTS LAF, A 
则 调度 器 不 会 获取 新 的 正常 页 面 请 求 。 

















因此 ， 我 们 从 系统 中 得 到 的 吞吐 量 相当 于 原始 请 求 持 续 1 秒 (APIE 
IB) ， 而 不 是 0.25 秒 《页 面 下 载 延 迟 ) 的 吞吐 量 不 是 一 种 巧合 。 这 种 情 
况 特别 容易 令 人 困惑 ， 因 为 除非 API 调 用 比 页 面 请 求 慢 ， 和 否则 我 们 不 会 
注意 到 任何 性 能 下 降 。 





解决 方案 : 我 们 可 以 使 用 treq 代替 
crawler.engine.download() 来 解决 该 问题 。 你 将 发 现 这 会 使 抓 取 程 
序 的 性 能 突 增 ， 这 对 于 API 架 构 来 说 可 能 是 个 坏 消息 。 我 将 从 一 个 低 数 
值 的 CONCURRENT_REQUESTS 开 始 ， 逐 渐 增 长 以 确保 不 会 使 API 服 务 





下 面 是 和 前 面相 同 的 运行 示例 ， 不 过 这 次 使 用 了 treq 。 





$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T_ 


RESPONSE=@.25 -s SPEED_API_T_RESPONSE=1 -s SPEED_PIPELINE_API_VIA_TREQ=1 


s/edule d/load scrape p/line done mem 


936 16 48 32 @ 49152 


887 16 65 64 32 66560 


823 16 65 52 96 66560 


real @m19.922s 





你 会 及 现 一 个 非常 有 趣 的 事情 。 管 道 Cp/line ) 似乎 包含 比 下 载 





器 (d/load) 更 多 的 条 目 〈 见 图 10.9) 。 这 种 情况 非常 好 ， 并 且 了 解 
其 原因 也 很 有 趣 。 
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图 10.9 ”拥有 长 管道 非常 完美 (在 Google 图 片 中 查看 “industrial heat exchanger” ) 











下 载 器 如 预期 一 样 ， 充 分 加 载 了 16 个 请 求 。 也 就 是 说 ， 系 统 吞 吐 量 
为 T=N/S=16/0.25= 64 个 请 求 / 秒 。 我 们 可 以 通过 观察 done 列 的 增长 
进行 确认 。 J To 费 0.25 秒 ， me 
求 ， 它 会 在 管道 中 花费 1 秒 的 时 间 。 这 意味 着 在 管道 中 Cine) ， 我 们 
期 望 看 到 平均 N = TS = 64.1 = 64 个 Item。 非 常 好 。 这 表示 现在 管道 有 瓶 
ME? 不 ， 因 为 我 们 没有 限制 同时 在 管道 中 处 理 的 响应 数量 。 只 要 数值 
不 是 无 限 增加 ， 就 能 够 很 好 地 运行 。 在 下 一 节 中 ， 我 们 将 看 到 更 多 关于 
这 个 问题 的 讨论 。 


10.5.4 ”案例 #4: 大 量 啊 应 或 超 长 啊 应 造成 的 洲 出 


症状 : 下 载 右 几乎 满 负荷 运转 ， 并 且 一 段 时 间 后 关闭 。 该 模式 不 
WER. HEEF H A AAEH KIR a o 














示例 : 此 处 我 们 使 用 了 和 前 面 一 样 的 设置 〈 使 用 了 treq ) ， 不 过 
响应 会 比较 大 ， 大 约 是 120KB 的 HTML。 如 你 所 见 ， 此 时 花费 了 31 秒 的 


时 间 完 成 ， 而 不 是 20 秒 左右 〈( 见 图 10.10〉。 





$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T_ 


RESPONSE=@.25 -s SPEED_API_T_RESPONSE=1 -s SPEED_PIPELINE_API_VIA_TREQ=1 


-S SPEED_DETAIL_EXTRA_SIZE=120000 


s/edule d/load scrape p/line done mem 
952 16 32 32 © 3842818 
917 16 35 35 32 4203080 


876 16 41 41 67 4923608 


840 4 48 43 108 5764224 


805 3 46 27 149 5524048 


real @m3@.611s 





| eo 16 
1000 URL 14 上 





CONCURRENT_REQUESTS 


下 载 器 上 的 请 求 
S 


36 ltem/ 秒 
0 S 10 15 20 25 30 
> 上 时间 


图 10.10 下载 器 中 不 规则 的 请 求 数 表示 啊 应 大 小 限 流 











讨论 ， 我 们 可 能 会 天 真 地 尝试 将 这 种 延迟 解释 为 创建、 传输 、 处 


理 页 面 需要 花费 更 多 时 间 ”， 不 过 这 并 不 是 此 处 发 生 的 情况 。 此 处 有 一 
个 人 硬 编 码 〈 编 写 代码 时 写 入 )〉 的 对 请 求 总 大 小 的 限 

fill: max_active_size = 5000000。 假 设 每 个 请 求 的 大 小 等 于 其 请 求 体 
的 大 小 ， 并 且 至 少 是 1KB。 


一 个 重要 的 细 贡 是 ， 该 限制 可 能 是 Scrapy 最 巧妙 且 本 质 的 机 制 ， 用 
于 防止 过 慢 的 爬虫 或 管道 。 如 果 你 的 任何 一 个 管道 的 吞吐 量 比 下 载 器 的 
否 吐 量 更 慢 ， 最 终 束 会 及 生 这 种 情况 。 当 管道 处 理 时间 过 长 时 ， 即 使 很 
小 的 请 求 ， 也 很 容易 触发 该 限制 。 下 面 是 一 个 管道 超 长 的 极端 案例 ，80 
秒 之 后 就 会 开始 产生 问题 。 

















$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=10000 -s SPEED_T_ 


RESPONSE=@.25 -s SPEED_PIPELINE_ASYNC_DELAY=85 











RTR: 对 于 已 存在 的 基础 架构 ， 针 对 该 问题 几乎 无 计 可 施 。 
当 你 不 再 需要 时 《比如 疏 虫 之 后 ) ， 清 空 啊 应 体 是 个 不 错 的 选择 ， 不 过 
在 写 操作 时 执行 该 操作 不 会 重 置 Scraper 的 计数 器 。 所 有 你 能 做 的 就 是 降 
低 管 道 的 处 理 时 间 ， 从 而 有 效 减少 Scraper 中 处 理 的 响应 数量 。 可 以 使 用 





传统 的 优化 手段 实现 它 : 检查 可 能 与 之 交互 的 API 或 数据 库 是 否 能 够 文 
持 抓 取 程序 的 否 吐 量 ;， 分 析 抓 取 程序 ， 将 功能 管道 移动 到 批 处 理 / 后 处 
理 系统 ;使 用 更 强大 的 服务 器 或 分 布 式 息 取 。 





10.5.5 ”案例 二 :有限 /过 度 item 并 发 造成 的 游 出 


症状 : 你 的 肘 虫 为 每 个 啊 应 创建 了 多 个 Item。 你 得 到 的 吞吐 量 低 于 
预期 ， 并 且 可 能 和 前 面 案例 中 的 开 / 关 模式 相同 。 


示例 : 这 里 ， 我 们 有 一 个 稍微 不 太一 样 的 设置 ， 我 们 有 1000 个 请 
求 ， 并 且 它 们 的 每 个 返回 页 面 都 有 100 个 Item。 响 应 时 间 是 0.25 秒 ，Item 
管道 处 理 时 间 为 3 秒 。 我 们 设置 CONCURRENT_ITEMS 的 值 从 10 到 150， 执 
行 多 次 。 





for concurrent_items in 10 20 50 100 150; do 


time scrapy crawl speed -s SPEED _TOTAL_ITEMS=10@@@0 -s \ 


SPEED_T_RESPONSE=0.25 -s SPEED_ITEMS_PER_DETAIL=1@0 -s \ 


SPEED_PIPELINE_ASYNC_DELAY=3 -s \ 


CONCURRENT_ITEMS=$concurrent_items 


done 


s/edule d/load 


952 


920 


888 


16 


16 


16 


scrape p/line done mem 
32 180 © 243714 
64 640 © 487426 
96 960 © 731138 


讨论 : 值得 再 次 注意 ， 该 情况 只 适用 于 息 虫 为 每 个 响应 生成 多 个 
Item 时 。 除 这 种 情况 外 ， 你 应 该 设置 CONCURRENT_ITEMS = 1 ， 然 后 忘 
了 它 。 另 外 还 需 注 意 的 是 ， 这 是 一 个 虚拟 的 示例 ， 因 为 其 吞吐 量 相 当 
大 ， 达 到 了 每 秒 大 约 1300 个 Item。 之 所 以 达到 如 此 高 的 吞吐 量 ， 是 因为 
延迟 低 且 稳定 、 几 乎 没有 真实 处 理 ， 以 及 响应 的 大 小 很 小 。 这 种 情况 并 
不 常见 。 














我 们 首先 要 注意 的 事情 是 ， 在 此 之 前 scrape 和 p/1ine 列 通常 都 是 
相同 的 数值 ， 而 现在 p/1line 则 是 CONCURRENT_ITEMS .scrape 。 这 
是 符合 预期 的 ， 因 为 scrape 显示 的 是 响应 数 ， 而 p/1ine 则 是 Item 
数 。 





第 二 个 有 意思 的 事情 是 图 10.11 所 示 的 浴 饶 形状 的 性 能 函数 。 由 于 
纵 轴 是 缩放 的 ， 因 此 该 图 表 看 起 来 会 比 实际 情况 更 显著 。 在 左 侧 ， 延 迟 
非常 高 ， 因 为 触及 了 前 一 市 所 提 到 的 内 存 限制 。 而 在 右 侧 ， 并 发 过 多 ， 
造成 使 用 了 过 多 的 CPU。 获 得 最 佳 效 果 并 不 那么 重要 ， 因 为 同 左右 移动 
非常 容易 。 
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图 10.11 ULACONCURRENT_ITEMS HA & AY ME BEY fia] PR AC 





解决 方案 : 检测 本 案例 的 两 种 问题 症状 非常 容易 。 如 果 CPU 使 用 
率 过 高 ， 那 么 最 好 减少 CONCURRENT_ITEMS 的 值 。 如 果 触 及 响应 的 5MB 
Bill, AS APRA CIEE EP aes eth, Sy 
加 CONCURRENT_ITEMS 的 值 可 能 能 够 快速 解决 该 问题 。 如 果 修 改 后 没有 
什么 区 别 ， 那 么 应 当 遵照 前 面 一 节 给 出 的 建议 ， 再 三 询问 自己 系统 的 其 
余部 分 是 否 能 够 文 持 你 的 抓 取 程序 的 吞吐 量 。 


10.5.6 ”案例 #6: 下 载 器 未 充分 利用 


症状 : 你 增加 了 CONCURRENT_REQUESTS 的 值 ， 但 是 下 载 器 并 未 跟 
上 ， 没 能 充分 利用 。 调 度 器 是 空 的 。 








示例 : ” 首先， 我们 运行 一 个 没有 问题 的 示例 。 我 们 将 切换 到 1 秒 的 
啊 应 时 间 ， 因 为 它 能 够 简化 计算 量 ， 使 下 载 器 的 吞吐 量 T=N/S=N/1 
= CONCURRENT_REQUESTS 。 假 设 按照 如 下 命令 运行 。 





$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 \ 


-S SPEED_T_RESPONSE=1 -s CONCURRENT_REQUESTS=64 


s/edule d/load scrape p/line done mem 


436 64 0 (2 (2 (2 


real 6m16 .99s 





我 们 得 到 了 一 个 充分 利用 的 下 载 器 〈64 个 请 求 ) ， 总 时 间 为 11 秒 ， 
与 我 们 以 每 秒 64 个 请 求 的 条 件 处 理 500 个 URL 的 模型 相 匹 配 CS = N/T + 
tstart/stop = 500 / 64 + 3.1 = 10.91 秒 )。 


现在 ， 执 行 相同 的 爬 取 ， 不 过 不 再 像 前 面 那些 示例 那样 默认 从 列表 





中 提供 URL， 而 是 使 用 索引 页 通过 
SPEED_START_REQUESTS_STYLE=UseIndex 抽取 URL。 这 和 我 们 本 书 








中 其 他 章 使 用 的 模式 相同 。 每 个 索引 页 默认 包含 20 个 URL。 





$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 \ 


-S SPEED_T_RESPONSE=1 -s CONCURRENT_REQUESTS=64 \ 


-S SPEED_START_REQUESTS_STYLE=UseIndex 


s/edule d/load scrape p/line done mem 


real 6m32 .24s 





A 


(RA, ATMA BIA AE. RAT, Pea IS ATK 





HR KABA, FP EL AMNT = N/S~toarystop = 500 / (32.2 - 3.1) = 17 个 
请 求 / 秒 。 


讨论 : 快速 浏览 d/load 列 ， 可 以 确信 下 载 右 没 能 充分 利用 。 这 是 
因为 我 们 没有 足够 的 URL 提 供给 它 。 我 们 的 抓 取 处 理 生成 URL 的 速度 比 
最 大 消费 能 力 要 慢 。 在 本 例 中 ， 每 个 索引 页 会 生成 20 个 URL 加 上 1 个 前 
往 下 一 索引 页 的 URL。 耕 吐 量 无 论 如 何 都 无 法 超过 每 秒 20 个 请 求 ， 因 为 
我 们 无 法 足够 快 地 得 到 源 URL。 该 问题 非常 隐蔽 ， 容 易 被 忽视 。 





解决 方案: 如 宁 每 个 索引 页 包含 一 个 以 上 的 下 一 页 的 链接 ， 那 么 
可 以 利用 它们 加 速 URL 的 生成 。 如 果 可 以 找到 显示 更 多 结果 的 索引 页 面 
《比如 50 个 ) 就 更 好 了 。 我 们 可 以 通过 运行 几 个 模拟 来 观察 其 行为 。 


$ for details in 16 26 36 40; do for nxtlinks in 1 2 3 4; do 


time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 -s SPEED_T_RESPONSE=1 \ 


-s CONCURRENT_REQUESTS=64 -s SPEED_START_REQUESTS_STYLE=UseIndex \ 


-S SPEED_DETAILS_PER_INDEX_PAGE=$details \ 


-S SPEED_INDEX_POINTAHEAD=$nxtlinks 


done; done 








在 图 10.12 中 ， 可 以 看 到 吞吐 量 是 如 何 根据 这 两 个 参数 变化 的 。 我 





们 观察 到 了 线性 行为 ， 无 论 是 下 一 页 链接 ， 还 是 详情 页 ， 直 到 达到 系统 
上 限 。 可 以 通过 重新 排列 候 取 的 Rule 进行 实验 。 如 果 使 用 LIFO〔 默 





认 ) 顺序 ， 你 可 能 会 看 到 如 果 先 调用 索引 页 请 求 ， 最 后 在 列表 中 抽取 它 
们 的 话 ， 能 够 得 到 较 小 的 改善 。 你 也 可 以 尝试 为 访问 索引 页 的 请 求 设置 
高 优先 级 。 虽 然 这 两 种 技术 都 没有 显著 的 改善 ， 但 可 以 通过 分 别 设 
置 SPEED_INDEX_RULE_LAST=1 和 SPEED_INDEX_HIGHER_PRIORITY=1 
来 进行 尝试 。 请 注意 这 两 种 解决 方案 都 会 首先 下 载 整个 索引 页 (由 于 优 
先 级 高 ) ， 因 此 会 在 调度 器 中 生成 大 量 URL， 增 加 内 存 需求 。 在 它们 完 
成 所 有 索引 之 前 ， 只 会 给 出 少量 的 结果 。 对 于 少量 索引 还 可 以 接受 ， 但 
是 对 于 大 量 索引 的 情况 ， 就 不 太 可 取 了 。 
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图 10.12 ”以 每 个 索引 页 链接 的 详情 页 及 下 一 页 数量 为 变量 的 吞吐 量 函数 











一 个 简单 而 又 强大 的 技术 是 索引 分 片 。 这 就 需要 你 使 用 超过 一 个 初 
始 索引 URL， 在 它们 之 间 有 一 个 最 大 距离 。 比 如 ， 如 采 索 引 包 含 100 
页 ， 你 可 以 选取 1 和 51 作 为 起 始 索引 。 然 后 ， 怜 虫 可 以 以 两 倍速 率 使 用 
下 一 页 链接 有 效 遍 历 索 引 。 如 果 你 能 找到 一 种 遍历 索引 的 方式 ， 比 如 基 
于 产品 的 品牌 或 提供 给 你 的 任何 其 他 属性 ， 并 且 可 以 将 其 按照 大 致 相等 
的 段 进行 拆 分 的 话 ， 也 可 以 做 到 类 似 的 事情 。 你 可 以 使 用 -s 
SPEED_INDEX_SHARDS 设置 进行 模拟 。 





$ for details in 10 20 30 40; do for shards in 1 2 3 4; do 


time scrapy crawl speed -s SPEED _TOTAL_ITEMS=5@0 -s SPEED_T_RESPONSE=1 \ 


-s CONCURRENT_REQUESTS=64 -s SPEED_START_REQUESTS_STYLE=UseIndex \ 


-S SPEED_DETAILS_PER_INDEX_PAGE=$details -s SPEED_INDEX_SHARDS=$shards 


done; done 





结果 要 比 前 面 的 技术 更 好 ， 如 果 该 方法 适合 你 的 话 ， 我 将 会 推荐 这 
种 方法 ， 因 为 它 更 加 简单 整洁 。 


10.6 ”故障 排除 流程 


总 结 来 说 ，Scrapy 在 设计 时 就 将 下 载 器 作为 瓶 贷 。 从 一 个 低 数 值 的 
CONCURRENT_REQUESTS 开始 ， 了 逐渐 增加 ， 直 到 触及 下 述 限 制 之 一 : 


e CPU 使 用 率 大 于 80% 一 909%6; 
。 源 网 站 延迟 过 度 增长 ; 
。 抓 取 程序 中 响应 达到 了 5MB 的 内 存 限制 。 





同时 ， 执 行 以 下 操作 : 





。 始终 保持 调度 器 队列 (mqs/dqs ) 中 至 少 有 一 定量 的 请 求 ， 避 人 免 下 
载 器 出 现 UREL 饥 饼 ; 
。 永远 不 要 使 用 任何 阻塞 代码 或 CPU 密集 型 代码 。 


图 10.13 总 结 了 诊断 并 修复 Scrapy 性 能 问题 的 过 程 。 
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图 10.13 ”Scrapy 性 能 问题 故障 排除 


10.7 本 章 小 结 


在 本 章 中 ， 我 们 尝试 通过 给 出 儿 个 有 趣 的 案例 ， 来 突出 Scrapy 染 构 
的 优秀 性 能 。 具 体 细 市 可 能 会 在 未 来 版 本 的 Scrapy 中 有 所 变更 ， 不 过 本 
章 提 供 的 知识 应 当 会 在 很 长 一 段 时 间 内 保持 有 效 ， 并 且 可 能 会 帮助 你 处 
理 基于 Twisted、Netty Node.js 或 类 似 框架 的 任何 高 并 发 异步 系统 。 





当 谈 到 Scrapy 的 性 能 问题 时 ， 有 3 个 有 效 的 答案 : 我 不 知道 也 不 介 
意 ; 我 不 知道 但 我 会 找 出 来 ;我 知道 。 正 如 我 们 在 本 间 中 多 次 论证 的 ， 
天 真 地 回答 “我 们 需要 更 多 的 服务 右 / 内 存 /带宽 "更 有 可 能 与 Scrapy 的 性 
能 无 关 。 人 们 需要 真正 理解 瓶 贷 在 什么 地 方 ， 并 且 去 提升 它 。 





在 最 后 一 章 中 ， 我 们 将 进一步 专注 提升 性 能 ， 通 过 在 多 侣 服务器 上 
分 布 式 部 普 爬 虫 ， 达 到 超越 单机 的 能 


第 11 革 使 用 Scrapyd 与 实时 分 析 进 行 分 布 式 
MEHR 


我 们 已 经 走 了 很 长 的 一 段 路 。 我 们 首先 熟悉 了 两 种 基础 的 网 络 技术 
一 HTML 和 XPath， 然 后 开始 使 用 Scrapy 扑 取 复 杂 网 站 。 接 下 来 ， 我 们 
深入 了 解 了 Scrapy 通 过 其 设置 为 我 们 提供 的 诸多 功能 ， 然 后 在 探讨 其 
Twisted 引 苟 的 内 部 架构 和 异步 功能 时 ， 更 加 深入 地 了 解 了 Scrapy 和 
Python。 在 上 一 章 中 ， 我 们 研究 了 Scrapy 的 性 能 ， 并 学 习 了 如 何 解决 复 
杂 和 经 常 违 背 直 觉 的 性 能 问题 。 





在 最 后 的 这 一 章 中 ， 我 将 为 你 指出 如 何 进 一 步 将 该 技术 扩展 到 多 人 台 
服务 器 的 一 些 方向 。 我 们 很 快 就 会 发 现 爬 取 工 作 经 常 是 一 种 "高度 并 
发 "的 问题 ， 因 此 可 以 轻松 地 实现 横 同 扩展 ， 利 用 多 台 服 务 器 的 资源 。 
为 了 实现 该 目标 ， 我 们 可 以 像 平 时 那样 使 用 一 个 Scrapy 中 间 件 ， 不 过 也 
可 以 使 用 Scrapyd， 这 是 一 个 专门 用 于 管理 运行 在 远程 服务 器 上 的 Scrapy 
疏 虫 的 应 用 。 这 将 允许 我 们 在 自己 的 服务 器 上 ， 拥 有 与 第 6 章 中 介绍 的 
相 兼 容 的 功能 。 














最 后 ， 我 们 将 使 用 基于 Apache Spark 的 简单 系统 ， 对 抽取 的 数据 执 
行 实时 分 析 。Apache Spark 是 一 个 非常 流行 的 大 数据 处 理 框 架 。 我 们 将 
使 用 Spark Streaming API 展 示 在 数据 收集 增多 时 越 来 越 准确 的 结果 。 对 
于 我 来 说 ， 最 终 的 这 个 应 用 展示 了 Python 作 为 一 种 语言 的 能 力 和 成 就 
度 ， 因 为 我 们 只 珊 这 些 ， 惑 能 编写 出 富有 表现 力 、 简 涪 并 且 高 效 的 代 
码 ， 实 现 从 数据 抽取 到 分 析 的 全 栈 工作 。 


11.1 房产 的 标题 是 如 何 影响 价格 的 


我 们 尝试 解决 的 示例 问题 是 找 出 标题 是 如 何 与 房产 价格 相关 的 。 我 
们 会 认为 诸如 “Jacuzzi”* 或 “pool* 这 样 的 词汇 与 高 价位 相关 ， 而 类 
似 “discount” 这 样 的 词汇 与 低 价位 相关 。 绪 合 位 置信 息 ， 束 可 能 根据 该 
位 置信 息 和 描述 ， 为 我 们 提供 房产 是 否 特价 的 实时 报警 。 











我 们 所 需要 计算 的 是 给 定 词汇 在 是 否 存 在 时 的 价格 差 : 





Ch; — f Drin 7 \ (Drip 
Shi f tterm E (F PtC€properties—with—term 一 I TiCeproperties—without—term )/ Price 


比如 ， 假 设 平均 租金 为 $1000， 我 们 观察 到 包含 词汇 jacuzzi 的 房产 
平均 价格 是 $1300， 而 不 包含 该 词汇 的 房产 平均 价格 是 $995， 那 么 
jacuzzi 的 价格 差 为 shiftjscwzzi = (1300-995) / 1000 = 30.5%。 如 果 存 在 一 个 
售 jacuzzi 关 键 词 的 房产 ， 其 价格 只 比 平均 价格 高 出 5%， 那 么 我 会 非常 
想 要 了 解 它 。 








请 注意 ， 该 指标 并 非 微不足道 ， 因 为 关键 词 的 效 末 将 会 被 聚合 。 例 
如 ， 既 包含 jacuzzi 又 包含 discount 的 标题 很 可 能 显示 出 这 些 关 键 词 的 组 
合 效 果 。 我 们 收集 并 分 析 的 数据 越 多 ， 预 估 的 准确 上 度 越 高 。 下 面 我 们 将 
回 到 该 问题 上 来 ， 讲 解 如 何在 一 分 钟 内 实现 一 个 流 媒 体 解 决 方案 。 








11.2 Scrapyd 


现在 ， 我 们 将 要 开始 介绍 Scrapyd。Scrapyd 这 个 应 用 允许 我 们 在 服 
务 嚣 上 部 署 朴 虫 ， 并 使 用 它们 制定 爬 取 的 计划 任务 。 让 我 们 来 感受 一 下 
使 用 它 是 多 么 简单 吧 。 我 们 在 开发 机 中 已 经 预 安装 了 该 应 用 ， 所 以 可 以 


立即 使 用 第 3 章 中 的 代码 对 其 进行 测试 。 我 们 在 之 前 使 用 了 几乎 完全 相 
同 的 过 程 ， 在 这 里 只 有 一 个 小 的 变化 。 


首先 ， 我 们 访问 http://1localhost:688686/ ， 来 看 一 下 Scrapyd 的 
Web 界 面 ， 如 图 11.1 所 示 。 










' | Project |Spider| PID| Runtime _ |Log [Items ; 




























.Scrapyd ' properties easy e6582742aleel Le59eea0242ac | 1000a [292 | :00:28.91 1757) | 
| Available projecigMfropertics ; [properties [easy tarsal eel lS9oee sa! 10008 00 [300 |0:00:03 921566 [Loe [Items 
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fone Directory listing for Tums propereln/ 


， ow to schedule a spider? Size Content type Content encoding 
H EE ee 548K [texvplain] 
‘To schedule a spider you need to use the API (this web UI is tsedfnfaGaleel es9eea02s20e 1000al 280K [text/plain] 
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.scrapyd.err OB [text/plain] Filename Size Content type Content encoding 
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图 11.1 ”Scrapyd 的 Web 界 面 


可 以 看 出 ，Scrapyd 对 于 Jobs 、Items 、Logs 和 Documentation 都 
有 不 同 的 区 域 。 此 外 ， 它 还 提供 了 一 些 指 引 ， 告 知 我 们 如 何 使 用 其 API 
定制 计划 任务 。 


为 了 完成 该 测试 ， 我 们 必须 先 在 Scrapyd 服 务 器 上 部 署 聆 虫 。 第 一 
步 是 按照 如 下 操作 修改 scrapy.cfg 配置 文件 。 


| 


$ pwd 


/root/book/ch@3/properties 


$ cat scrapy.cfg 


[settings ] 


default = properties.settings 


[deploy] 


url = http://localhost:6800/ 


project = properties 





基本 上 ， 我 们 所 有 需要 做 的 就 是 去 除 url 一 行 的 注释 。 默 认 的 设置 
己 经 很 合适 了 。 现 在 ， 要 想 部 团 和 爬虫 ， 需 要 使 用 scrapyd-client 提供 
的 scrapyd-deploy 工具 。scrapyd-client 曾经 是 Scrapy 的 一 部 分 ， 
不 过 现在 已 经 独立 为 一 个 单独 的 模块 ， 该 模块 可 以 使 用 pip install 
scrapyd-client 安装 〈 已 经 在 开发 机 中 安装 好 了 该 模块 ) 。 








$ scrapyd-deploy 


Packing version 1450044699 


Deploying to project "properties" in http://localhost :6800/addversion. 


json 


Server response (200): 


{"status": "ok", "project": "properties", "version": "1450044699", 


"spiders": 3, "node_name": "dev"} 





当 部 署 成 功 后 ， 可 以 在 Scrapyd 的 Web 界 面 主页 的 Available projects 





区 域 看 到 该 项 目 。 现 在 ， 可 以 按照 提示 在 该 页 面 提交 一 个 任务 。 





$ curl http://localhost:6800/schedule.json -d project=properties -d 


Spider=easy 


{"status": "ok", "jobid": " d4df...", "node_name": "dev"} 


如 有 果 回 到 Web 界 面 的 Jobs 区 域 ， 可 以 看 到 任务 正在 运行 。 稍 后 可 以 
使 用 schedule.json 返回 的 jobid ， 通 过 cancel.json 取消 该 任务 。 


$ curl http://localhost:6800/cancel.json -d project=properties -d 


{"status": "ok", "prevstate": "running", "node_name": "dev"} 





请 一 定 记 住 执行 取消 操作 ， 否 则 你 会 浪费 一 段 时 间 的 计算 机 资源 。 


非常 好 ! 当 访 问 Logs 区 域 时 ， 可 以 看 到 日 志 ; 而 当 访 问 Items 区 域 
时 ， 可 以 看 到 刚才 息 取 的 Item 。 这 些 都 会 在 一 定 周 期 之 后 清空 以 释放 


空间 ， 因 此 在 儿 次 仆 取 操作 后 这 些 内 容 可 能 束 不 再 可 用 。 


如 果 有 合理 的 理由 ， 比 如 冲突 ， 那 么 我 们 可 以 使 用 http_port 修改 
端口 ， 这 是 Scrapyd 提 供 的 诸多 设置 之 一 。 通 过 访问 http://scrapyd. 
readthedocs.org/ 来 了 解 Scrapyd 的 文档 是 非常 值得 的 。 在 本 章 中 ， 
我 们 需要 修改 的 一 个 重要 设置 是 max_proc 。 如 果 将 该 设置 保留 为 默认 
值 0 的 话 ，Scrapyd 将 在 Scrapy 任 务 运行 时 允许 4 倍 于 CPU 数量 的 并 发 。 由 
于 我 们 将 运行 多 个 Scrapyd 服 务 器 ， 并 且 大 部 分 可 能 是 在 虚拟 机 当中 
的 ， 因 此 我 们 将 会 设置 该 值 为 4， 即 允许 至 多 4 个 任务 并 发 运行 。 这 与 本 
章 的 需求 有 关 ， 而 在 实际 部 普 当 中 ， 一 般 情 况 下 使 用 默认 值 就 能 够 恨 好 


运行 。 











11.3 分布 式 系 统 概 述 


对 我 来 说 ， 设 计 该 系统 是 一 个 非常 棒 的 经 历 〈 见 图 11.2) 。 起 初 ， 
我 增加 了 功能 和 复杂 性 ， 以 至 于 不 得 不 要 求 读者 拥有 蜗 端 人 硬件 才能 运行 
这 些 示例 。 这 束 造 成 之 后 的 一 个 紧迫 需求 成 为 简化 一 一 无 论 是 为 了 保持 
硬件 需求 更 加 实际 ， 还 是 确保 本 草 能 够 保持 专注 在 Scrapy 上 。 

























scrapyd:6800 


scrapyd1..3 
Jobs with | 
batches of 
URLs 


图 11.2 ”系统 概述 





最 后 ， 本 章 将 要 使 用 的 系统 包含 我 们 的 开发 机 以 及 几 个 其 他 服务 
器 。 我 们 将 使 用 开发 机 执行 案 引 页 面 的 垂直 抓 取 ， 并 从 中 批量 抽取 
URL。 之 后 ， 将 以 轮 询 的 方式 将 这 些 URL 分 发 到 Scrapyd 节 点 当中 执行 
ER. Ba, ALAFItem 的 .j1 文件 将 会 通过 FTP 传 输 到 运行 Apache 
Spark 的 服务 器 中 。 什 么 ? FTP? 是 的 ， 我 选择 FTP 和 本 地 文件 系统 ， 而 
不 是 HDFS 或 Apache Kafka 的 原因 是 因为 其 内 存 需求 很 低 ， 并 且 Scrapy 后 
端的 FEED_URI 能 够 直接 文 持 。 请 注意 ， 通 过 简单 修改 Scrapyd 和 Spark 
的 配置 ， 我 们 可 以 使 用 Amazon S3 来 存储 这 些 文件 ， 享 受 其 带 来 的 风 余 
性 、 扩 展 性 等 诸多 特性 。 不 过 ， 这 里 不 会 有 更 多 有 意思 的 相关 话题 来 学 
习 任 何 奇 技 泽 巧 。 











使 用 FTP 的 一 个 风险 是 Spark 可 能 会 在 其 上 传 过 程 中 看 到 不 完整 的 文件 。 























为 了 避免 发 生 该 问题 ， 我 们 将 使 用 Pure-FTPd 以 及 一 个 回调 脚本 ， 在 上 传 完 
成 后 立即 将 上 传 的 文件 移动 到 /root/items 目录 中 。 














每 隔 几 秒 ，Spark 将 会 检测 该 目录 (/root/items ) ， 读 取 任 何 新 
文件 ， 形 成 小 批 次 ， 并 执行 分 析 。 我 们 使 用 Apache Spark 是 因为 它 文 持 
Python 作为 其 编程 语言 ， 并 且 还 文 持 流 。 到 目前 为 止 ， 我 们 可 能 已 经 使 
用 了 一 些 生命 周期 相对 较 短 的 爬 取 工作 ， 不 过 现实 世界 中 许多 疏 取 工作 
永远 都 不 会 结束 。 疏 取 工 作 24/7 不 间断 运行 ， 并 提供 用 于 分 析 的 数据 
流 ， 数 据 越 多 其 结果 就 越 精确 。 正 因 如 此 ， 我 们 将 使 用 Apache Spark 进 
行 展示 。 


使 用 Apache Spark 和 Scrapy 并 没有 什么 特殊 之 处 。 你 也 可 以 选择 使 用 
Map-Reduce、Apache Storm 或 任何 其 他 适合 你 需求 的 框架 。 














在 本 章 中 ， 我 们 并 不 会 将 Item 插入 到 诸如 ElasticSearch 或 MySQL 等 
数据 库 当 中 。 第 9 章 中 介绍 的 技术 在 这 里 同样 适用 ， 不 过 其 性 能 会 很 糟 
糕 。 当 你 每 秒 钟 执 行 数 千 次 写 入 操作 时 ， 只 有 极 少数 的 数据 库 系统 能 够 
运行 良好 ， 但 这 正 是 我 们 的 管道 将 会 做 的 事情 。 如 采 我 们 想 要 回 数 据 库 
中 插入 数据 ， 则 需要 遵循 与 使 用 Spark 相 似 的 流程 ， 即 批量 导入 生成 的 
Item 文件 。 你 可 以 修改 我 们 的 Spark 示 例 流 程 ， 批 量 导 入 到 任意 数据 库 
当中 。 

















最 后 需要 注意 的 是 ， 该 系统 并 没有 展 好 的 弹性 。 我 们 假设 各 市 后 痢 
征 健康 的 ， 并 且 任 何 失 败 都 不 会 产生 严重 的 业务 影响 。Spark 拥 有 弹性 
配置 ， 能 够 提供 高 可 用 性 。 而 除了 Scrapyd 的 持久 化 队列 外 ，Scrapy 并 没 
有 提供 任何 相关 的 内 建功 能 ， 这 就 意味 着 失败 的 任务 需要 在 市 点 恢 复 后 








才能 重新 启动 。 这 种 方式 对 于 你 的 需求 来 说 ， 也 许 适 合 ， 也 许 不 适合 。 
如 果 对 你 而 言 弹 性 十 分 重要 ， 那 么 你 需要 搭建 监控 和 分 布 式 队列 方案 
(如 基于 Kafka 或 RabbitMQ) ， 来 重启 失败 的 仆 取 工作 。 


11.4 疏 虫 和 中 间 件 的 变化 


为 了 构建 该 系统 ， 我 们 需要 稍微 对 Scrapy 爬 虫 进 行 修 改 ， 并 且 需 要 
开发 慌 虫 中 间 件 。 更 具体 地 说 ， 我 们 必须 执行 如 下 操作 : 





。 调整 索引 页 爬 取 ， 以 最 大 速率 执行 ; 
。 编写 中 则 件 ， 分 批发 送 URL 到 Scrapyd 服 务 器 ; 
e 使 用 相同 中 间 件 ， 人 允许 在 启动 时 使 用 批量 URL。 





我 们 将 尝试 使 用 尽 可 能 小 的 改动 来 实现 这 些 变 化 。 理 想 情 况 下 ， 整 
个 操作 应 该 清晰 、 易 理解 并 且 对 其 依赖 的 息 虫 代码 透明 。 这 应 该 是 一 个 
基础 架构 层级 的 需求 ， 如 果 想 对 爬虫 《可 能 数 百 个 ) 进行 修改 来 实现 它 
则 是 一 个 坏 主意 。 





11.4.1 索引 页 分 片 爬 取 


我 们 的 第 一 步 是 优化 索引 页 爬 取 ， 使 其 尽 可 能 更 快 。 在 开始 之 前 ， 
先 来 设置 一 些 期 恤 。 假 设 爬 虫 疏 取 并 发 量 是 16， 并 且 我 们 测量 得 到 其 与 
源 网 站 服务 器 的 延迟 大 约 为 0.25 秒 。 此 时 得 到 的 吞吐 量 最 多 为 16 / 0.25 = 
64 页 / 秒 。 索 引 页 数量 为 50000 个 详情 页 / 每 个 索引 页 30 个 详情 页 链接 = 
1667 索 引 页 。 因 此 ， 我 们 期 望 罕 引 页 下 载 花 费 的 时 间 大 约 为 1667 / 64 = 
26 秒 多 一 点 。 











让 我 们 以 第 3 章 中 名 为 easy 的 爬虫 开始 。 先 把 执行 垂直 抓 取 的 Rule 
注释 掉 Ccallback='parse_item' 的 那个 ) ， 因 为 现在 只 需要 疏 取 索 
引 页 。 





Q 
你 可 以 在 GitHub 中 获取 到 本 书 的 全 部 代码 。 下 载 该 代码 ， 可 以 访 


问 : git clone 
https://github.com/scalingexcellence/scrapybook 。 


本 章 中 的 完整 代码 位 于 ch11 目录 当中 。 





如 果 我 们 在 进行 任何 优化 之 前 对 scrapy crawl KERAKKI 
情况 进行 计时 ， 可 以 得 到 如 下 结果 。 





$ 1s 


properties scrapy.cfg 


$ pwd 


/root/book/ch11/properties 


$ time scrapy crawl easy -s CLOSESPIDER_PAGECOUNT=16 


DEBUG: Crawled (200) <GET ...index_00000.html> (referer: None) 


DEBUG: Crawled (200) <GET ...index_@0001.html> (referer: ...index_00000. 


htm1) 


real @m4.099s 


| 


如 果 10 个 页 面 就 花费 了 4 秒 时 间 ， 那 么 束 不 可 能 在 26 秒 时 间 内 完成 

1,700 个 页 面 。 通 过 查看 日 志 ， 我 们 发 现 每 个 页 面 都 来 自 于 前 一 个 页 面 
的 下 一 页 链接 ， 也 区 是 说 在 任意 时 刻 都 只 有 至 多 一 个 页 面 正在 执行 朴 
取 。 我 们 的 有 效 并 发 为 1。 我 们 希望 并 行 处 理 ， 得 到 想 要 的 并 有 数量 
《16 个 并 有 请求) 。 我 们 将 对 索引 分 片 ， 并 多 许 一 些 额 外 的 分 片 ， 以 确 
保 爬 虫 中 的 URL 不 会 不 足 。 我 们 将 会 把 索引 分 为 20 个 段 。 实 际 上 ， 任 何 
超过 16 的 数值 都 能 够 增加 速度 ， 不 过 在 超过 20 之 后 所 得 到 的 回报 呈 递 减 
趋势 。 我 们 将 通过 如 下 表达 式 计 算 每 个 分 片 的 起 始 索引 ID。 








>>> map(lambda x: 1667 * x / 20, range(2@)) 


[@, 83, 166, 250, 333, 416, 500, ... 1166, 1250, 1333, 1416, 1500, 1583] 





因此 ， 我 们 使 用 如 下 代码 设置 start_urls 。 





start_urls = ['http://web:9312/properties/index_%05d.html' % id 


for id in map(lambda x: 1667 * x / 20, range(20))] 











这 可 能 和 你 的 索引 有 很 大 的 不 同 ， 因 此 我 们 没 必 要 在 此 处 实现 得 更 
漂亮 。 如 果 还 设 定 了 并 发 设置 (CONCURRENT_REQUESTS 


、CONCURRENT_REQUESTS_PER_DOMAIN ) 为 16， 那 么 当 运 行 疏 虫 时 ， 
将 会 得 到 如 下 结 





$ time scrapy crawl easy -s CONCURRENT_REQUESTS=16 -s CONCURRENT_ 


REQUESTS_PER_DOMAIN=16 


real @m32.344s 


该 结果 已 经 与 期 望 值 非常 接近 了 。 我 们 的 下 载 速 度 为 1667 个 页 面 / 
32 秒 = 52 个 索引 页 / 秒 ， 这 就 意味 着 每 秒 可 以 生成 52x30 = 1560 个 详情 页 
URL。 现 在 ， 可 以 将 垂直 抓 取 的 Rule 的 注释 取消 掉 ， 保 存 文件 作为 新 
疏 虫 分 发 。 我 们 不 需要 对 怜 虫 代码 进行 更 多 修改 ， 这 显示 出 我 们 即将 开 
发 的 中 间 件 的 强大 以 及 非 侵 入 性 。 如 果 只 使 用 开发 服务 器 运行 sScrapy 
crawl ， 假 设 处 理 详 情 页 的 速度 和 索引 页 处 理 时 一 样 快 ， 那 么 它 将 花费 
不 少 于 50000 / 52 = 16 分 钟 时 间 完 成 朴 取 。 














本 市 有 两 个 关键 内 容 。 在 学 习 完 第 10 间 之后， 我 们 已 经 可 以 实现 真 
正 的 工程 。 我 们 能 够 精确 计算 出 系统 期 望 得 到 的 性 能 ， 并 且 确 保 在 达到 
该 性 能 之 前 不 会 停止 《在 合理 范围 内 ) 。 第 二 个 要 记 住 的 重要 事情 是 ， 
由 于 索引 页 怜 取 提供 了 详情 页 ， 改 取 的 总 吞吐 量 将 会 是 其 否 吐 量 的 最 小 
值 。 如 果 我 们 生成 的 URL 比 Scrapyd 能 够 消费 得 更 快 ， 那 么 URL 将 会 堆 
积 在 其 队列 当中 。 反 过 来 ， 如 果 生 成 的 URL 太 慢 ，Scrapyd 将 会 拥有 过 
剩 的 无 法 利用 的 能 力 。 











11.4.2 分 批 爬 取 URL 


现在 ， 我 们 准备 开发 处 理 详情 页 URL 的 基础 架构 ， 目 的 是 对 其 进行 
EAER, Asta REIS GScrapyd HAF, MAE EAHB ICR. 








如 条 碍 看 第 8 章 中 的 Scrapy 架 构 ， 就 可 以 很 容易 地 得 出 结论 ， 这 是 


和 仆 虫 中 间 件 的 任务 ， 因 为 它 实现 了 process_spider_output() ， 在 到 
达 下 载 器 之 前 ， 在 此 处 处 理 请 求 ， 并 能 够 中 止 它们 。 我 们 在 实现 中 限制 
只 文 持 基于 CrawlSpider 的 爬虫 ， 另 外 还 只 文 持 简单 的 GET 请 求 。 如 
果 需 要 更 加 复杂 ， 比 如 POST 或 有 权限 验证 的 请 求 ， 那 么 需要 开发 更 复 
杂 的 功能 来 扩展 参数 、 请 求 头 ， 甚 至 可 能 在 每 次 批量 运行 后 重新 登录 。 

















在 开始 之 前 ， 先 来 快速 浏览 一 下 Scrapy 的 GitHub。 我 们 将 回 
顾 SPIDER_MIDDLEWARES_BASE 设置 ， 以 查看 Scrapy 提 供 的 参考 实现 ， 
以 便 尽 最 大 可 能 复 用 它 。Scrapy 1.0 包 含 如 下 扑 虫 中 间 
件 : HttpErrorMiddleware 、0ffsiteMiddleware 
、RefererMiddleware 、UrlLengthMiddleware 以 及 
DepthMiddleware 。 在 快速 了 解 它们 的 实现 之 后 ， 我 们 发 现 
OffsiteMiddleware (只 有 60 行 代码 ) 与 想 要 实现 的 功能 很 相似 。 它 
AL HEME Ht Wallowed_domains 属性 ， 把 URL 限 制 在 某 些 特定 域名 中 。 
我 们 可 以 使 用 相似 的 模式 吗 ?” 和 0ffsiteMiddleware 实现 中 丢弃 URL 
不 同 ， 我 们 将 对 这 些 UREL 进 行 分 批 并 发 送 到 Scrapyd 节 点 中 。 事 实证 明 
这 是 可 以 的 。 下 面 是 实现 的 部 分 代码 。 








def _ init__(self, crawler): 
settings = crawler.settings 
self. target = settings.getint('DISTRIBUTED_TARGET_RULE", -1) 
self. seen = set() 
self._urls = [] 
self. batch size = settings.getint('DISTRIBUTED BATCH_SIZE', 1000) 


def process _spider_output(self, response, result, spider): 
for x in result: 
if not isinstance(x, Request): 
yield x 
else: 
rule = x.meta.get('rule') 


if rule == Self. target: 
self._add_to_batch(spider, x) 
else: 
yield x 


def _add to batch(self, spider, request): 
url = request.url 
if not url in self. seen: 
self. seen.add(url) 
self._urls.append(url) 
if len(self._urls) >= self. batch size: 
self. flush_urls(spider) 





process_spider_output() 既 处 理 Item 也 处 理 Request 。 我 们 
只 想 处 理 Request ， 因 此 我 们 对 其 他 所 有 内 容 执行 yield 操作 。 如 果 查 
看 CrawlSpider 的 源 代码 ， 束 会 注意 到 将 Request / Response 映射 
到 Rule 的 方式 是 通过 其 meta 字典 的 名 为 'rule' 的 整 型 字段 。 我 们 检 
查 该 数值 ， 如 果 它 指向 目标 的 Rule (DISTRIBUTED_TARGET_RULE 设 
置 ) ， 则 会 调用 _add_to_batch() 添加 URL 到 当前 批 次 。 然 后 ， 丢 弃 
iZRequest 。 对 其 他 所 有 Request 执行 yield 操作 ， 比 如 下 一 页 链接 、 
无 变化 的 链接 。_add_to_batch( ) 方法 实现 了 一 个 去 重 机 制 。 不 过 很 
遗憾 的 是 ， 由 于 前 一 节 中 描述 的 分 片 流程 ， 我 们 可 能 对 少数 URL 抽 取 两 
次 。 我 们 使 用 _seen 集合 检测 并 丢弃 重复 值 。 然 后 ， 把 这 些 URL 琴 加 
Bl urls 列表 中 ， 如 果 其 大 小 超过 _batch_size 
(DISTRIBUTED_BATCH_SIZE 设置 ) ， 就 会 触发 调用 _flush_urls() 
。 该 方法 提供 了 如 下 的 关键 功能 。 


def _ init (self, crawler): 


self. targets = settings.get("DISTRIBUTED_TARGET_HOSTS") 

self. batch = 1 

self. project = settings.get('BOT_NAME') 

self. feed uri = settings.get('DISTRIBUTED_TARGET_FEED_URL', None) 


self. scrapyd submits to wait = [] 


def flush_urls(self, spider): 
if not self._urls: 
return 


target = self. _targets[(self._batch-1) % len(self. targets) ] 


data = [ 

("project", self. project), 

("spider", spider.name), 

("setting", "FEED _URI=%s" % self. feed_uri), 
( 


"patch", str(self._batch)), 
] 


json_urls = json.dumps(self._urls) 
data.append(("setting", "DISTRIBUTED_START_URLS=%s" % json_urls) ) 


d = treq.post("http://%s/schedule.json" % target, 
data=data, timeout=5, persistent=False) 


self. scrapyd_ submits to wait.append(d) 


self._urls = [] 
self. batch += 1 





首先 ， 它 使 用 一 个 批 次 计数 器 (batch ) 来 决定 要 将 该 批 次 发 送 


到 哪个 Scrapyd 服 务 嚣 中。 我 们 在 _targets 
(DISTRIBUTED_TARGET_HOSTS 设置 ) 中 保持 更 新 可 用 的 服务 器 。 然 
后 ， 构 造 POST 请 求 到 Scrapyd 的 schedule.json 。 这 比 之 前 通过 curl 
执行 的 更 加 高 级 ， 因 为 它 传 递 了 一 些 精 心 挑 选 的 参数 。 基 于 这 些 参 数 ， 
Scrapyd 可 以 有 效 地 计划 运行 任务 ， 类 似 如 下 所 示 。 








scrapy crawl distr \ 

-s DISTRIBUTED START_URLS='[".../property_@@0000.htm1", ... ]' \ 

-s FEED _URI='ftp://anonymous@spark/%(batch)s %(name)s %(time)s.jl' \ 
-a batch=1 





eS OA AM Ah, FRAT ME Fea —/SFEED_URIV SS 
我 们 可 以 从 DISTRIBUTED_ TARGET _ FEED_UREL 设 置 中 获取 该 值 。 


由 于 Scrapy 文 持 FTP， 我 们 可 以 让 Scrapyd 通 过 匿名 FTP 的 方式 将 的 
取 到 的 Item 文件 上 传 到 Spark 服 务 嚣 中。 格式 包含 仆 虫 名 (%(name)s 
) AMEN TE] (%(time)s ) 。 如 果 只 使 用 这 些 ， 那 么 当 两 个 文件 的 创建 时 
间 相 同时 ， 最 终 会 产生 冲突 。 为 了 避免 意外 和 履 新 ， 我 们 还 添加 了 一 个 % 
(batch)s 参数 。 默 认 情 况 下 ，Scrapy 不 知道 任何 关于 批 次 的 事情 ， 因 
此 我 们 需要 找到 一 种 方式 来 设置 该 值 。Scrapyd 中 schedule.json 这 个 
API 的 一 个 有 趣 特 性 是 ， 如 果 参 数 不 是 设置 或 少数 几 个 已 知 参数 的 话 ， 
它 将 会 被 作为 参数 传 给 爬虫 。 默 认 情 况 下 ， 疏 虫 参 数 将 会 成 为 朴 虫 属 
性 ， 未 知 的 FEED_URI 参数 将 会 去 查阅 故 虫 的 属性 。 因 此 ， 通 过 传 
batch 参数 给 schedule.json ， 我 们 可 以 在 FEED_URI 中 使 用 它 以 避 
PIR. 


最 后 一 步 是 使 用 编码 为 JSON 的 该 批 次 详情 页 URL 编 译 
为 DISTRIBUTED START_URLS 设置 。 除 了 熟悉 和 简单 之 外 ， 使 用 该 格 
式 并 没有 什么 特殊 的 理由 。 任 何 文本 格式 都 可 以 做 到 。 





通过 命令 行 向 Scrapy 传 输 大 量 数 据 丝 点 也 不 优雅 。 在 一 些 时 候 ， 你 想 要 





将 参数 存储 到 数据 存储 中 (比如 Redis) ， 并 且 只 向 Scrapy 传 输 ID 。 如 果 想 要 
这 样 做 ， 则 需要 在 _ flush_urls() 和 process_start_requests() 中 做 一 
些小 的 改变 。 











我 们 使 用 treq.post() 处 理 POST 请 求 。Scrapyd 对 持久 化 连接 处 理 
得 不 是 很 好 ， 因 此 使 用 persistent=False 禁用 该 功能 。 为 了 安全 起 
见 ， 我 们 还 设置 了 一 个 5 秒 的 超时 时 间 。 有 趣 的 是 ， 我 们 为 该 请 求 
在 _scrapyd_submits_to_wait 列表 中 存储 了 延迟 函数 ， 后 续 内 容 中 
将 会 进行 讲解 。 关 闭 该 函数 时 ， 我 们 将 重 置 _urls 列表 ， 并 增加 当前 的 

batch 值 。 








出 人 意料 的 是 ， 我 们 在 关闭 操作 处 理 絮 中 发 现 了 如 下 所 示 的 诸多 功 


def _ init (self, crawler): 


crawler.signals.connect(self. closed, signal=signals.spider_ 
closed) 


@defer.inlineCallbacks 

def closed(self, spider, reason, signal, sender): 
# Submit any remaining URLs 
self. flush urls(spider) 


yield defer.DeferredList(self. scrapyd submits to wait) 








_close() 将 会 在 我 们 按 下 Ctrl + C 或 肘 取 完成 时 被 调用 。 无 论 哪 
种 情况 ， 我 们 都 不 希望 丢失 属于 最 后 一 个 批 次 的 任何 URL， 因 为 它们 还 


没有 被 发 送出 去 。 这 就 是 为 什么 我 们 在 _close() 方法 中 首先 要 做 的 是 
调用 _flush_urls(spider) 清空 最 后 的 批 次 的 原因 。 第 二 个 问题 是 ， 
作为 非 阻 蹇 代码， 任何 treq.post() 在 停止 仆 取 时 都 可 能 完成 或 没有 
完成 。 为 了 避免 丢失 任何 批 次 ， 我 们 将 使 用 之 前 提 及 的 
scrapyd_submits_to_wait 列表 ， 来 包含 所 有 的 treq.post() 的 延迟 
函数 。 我 们 使 用 defer .DeferredList() 进行 等 待 ， 直 到 全 部 完成 。 

由 于 _close() 使 用 了 @defer.inlineCallbacks ， 我 们 只 需 对 其 执 
行 yield 操作 ， 并 在 所 有 请 求 完成 之 后 进行 恢复 即 可 。 


总 结 来 说 ， 在 DISTRIBUTED_START_URLS 设置 中 包含 批量 URL 的 
任务 将 被 送 往 Scrapyd 服 务 器 ， 并 在 这 些 Scrapyd 服 务 嚣 中 运行 相同 的 的 
虫 。 很 明显 ， 我 们 需要 某 种 方式 以 使 用 该 设置 初始 化 start_urls 。 


11.43 从 设置 中 获取 初始 UREL 


当 你 注意 到 疏 虫 中 间 件 提供 的 用 于 处 理 爬 虫 给 我 们 的 
start_requests 的 process_start_requests() 方法 时 ， 就 会 感受 
到 疏 虫 中 间 件 是 怎样 满足 我 们 的 需求 的 。 我 们 检 
测 DISTRIBUTED_START_URLS 设置 是 否 已 被 设 定 ， 如 有 果 是 的 话 ， 则 解 
人 码 JSON 并 使 用 其 中 的 URL 对 相关 的 Request 进行 yield 操作 。 对 于 这 
些 请 求 ， 我 们 设置 CrawlSpider 的 _response_download() 方法 作为 
回调 ， 并 设置 meta['rule'] 参数 ， 以 便 其 Response 能 够 被 适当 的 
Rule 处 理 。 坦 白 来 说 ， 我 们 查阅 了 Scrapy 的 源 代 码 ， 发 现 
CrawlSpider 创建 Request 的 方式 使 用 了 相同 的 方法 。 在 本 例 中 ， 代 
码 如 下 所 示 。 





def _ init (self, crawler): 


self. start_urls = settings.get('DISTRIBUTED_START_URLS' None) 
self.is_worker = self. start urls is not None 


def process _start_requests(self, start_requests, spider): 
if not self.is worker: 
for x in start_requests: 
yield x 


else: 
for url in json.loads(self._start_urls): 
yield Request(url, spider. response downloaded, 
meta={'rule': self. target}) 





我 们 的 中 间 件 已 经 准备 好 了 。 可 以 在 settings.py 中 局 用 它 并 进 
行 设置 。 


SPIDER MIDDLEWARES 
'properties.middlewares.Distributed': 100, 


} 

DISTRIBUTED TARGET_ RULE 

DISTRIBUTED BATCH SIZE = 2000 

DISTRIBUTED_TARGET_FEED_URL = ("ftp://anonymous@spark/" 
"%(batch)s %(name)s %(time)s.j1") 

DISTRIBUTED _TARGET_HOSTS = [ 


"scrapyd1:6800", 
"scrapyd2:6800", 
"scrapyd3:6800", 





一 些 人 可 能 会 认为 DISTRIBUTED_TARGET_RULE 不 应 该 作为 设置 ， 
因为 不 同 爬 虫 之 间 可 能 是 不 一 样 的 。 你 可 以 将 其 认为 是 默认 值 ， 并 且 可 
以 在 怜 虫 中 使 用 custom_settings 属性 进行 履 写 ， 比 如 : 


custom_settings = { 
"DISTRIBUTED_TARGET_RULE': 3 


} 





不 过 在 我 们 的 例子 中 并 不 需要 这 么 做 。 我 们 可 以 做 一 个 测试 运行 ， 
慌 取 作为 设置 提供 的 单个 页 面 。 


$ scrapy crawl distr -s \ 


DISTRIBUTED_START_URLS='["http: //web:9312/properties/property_000000.htm1" 
] Li 
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scrapy crawl distr -s \ 


DISTRIBUTED_START_URLS='["http://web:9312/properties/property_90Q00@e0. 


html"]" \ 


-s FEED_URI='ftp://anonymous@spark/%(batch)s %(name)s_%(time)s.jl' -a batc 
h=12 





如 果 你 通过 ssh 登 录 到 Spark 服 务 器 中 〈 稍 后 会 有 更 多 介绍 ) ， 将 会 





看 到 一 个 文件 位 于 /root/items 目录 中 ， 比 如 
12 distr date time.jl. 


上 述 是 使 用 Scrapyd 实 现 分 布 式 爬 取 的 中 间 件 的 示例 实现 。 你 可 以 
使 用 它 作 为 起 点 ， 实 现 满足 自己 特殊 需求 的 版 本 。 你 可 能 需要 适 配 的 事 
情 包 括 如 下 内 容 。 





。 支持 的 朴 虫 类 型 。 比 如 ， 一 个 不 局 限于 Crawlspider 的 蔡 代 方案 
可 能 需要 你 的 爬虫 通过 适当 的 meta 以 及 采用 回调 命名 约定 的 方式 
来 标记 分 布 式 请 求 。 
。 问 Scrapyd 传 输 UREL 的 方式 。 你 可 能 希望 使 用 特定 域名 信息 来 减少 
传输 的 信息 量 。 比 如 ， 在 本 例 中 ， 我 们 只 传输 了 房产 的 ID。 
。 你 可 以 使 用 更 优雅 的 分 布 式 队列 解决 方案 ， 使 仆 虫 能 够 从 失败 中 恢 
复 ， 并 允许 Scrapyd 将 更 多 的 URL 提 交 到 批 处 理 。 











。 你 可 以 动态 填充 目标 服务 需 列 表 ， 以 文 持 按 需 扩展 。 








11.4.4 在 Scrapyd 服 务 右 中 部 署 项 目 


为 了 能 够 在 我 们 的 3 台 Scrapyd 服 务 器 中 部 署 怜 虫 ， 我 们 需要 将 这 3 
台 服 务 器 添加 到 scrapy.cfg 文件 中 。 该 文件 中 的 每 个 
[deploy:target-name] 区 域 都 定义 了 一 个 新 的 部 署 目 标 。 





$ pwd 


/root/book/ch11/properties 


$ cat scrapy.cfg 


[deploy: scrapyd1 ] 


url = http://scrapyd1:6800/ 


[deploy:scrapyd2] 


url = http://scrapyd2:6800/ 


[deploy: scrapyd3 ] 


url = http://scrapyd3:6800/ 





可 以 通过 scrapyd-deploy -1 查询 当前 可 用 的 目标 。 





$ scrapyd-deploy -1 


scrapyd1 http: //scrapyd1:6800/ 


scrapyd2 http: //scrapyd2:6800/ 


scrapyd3 http: //scrapyd3:6800/ 








iit scrapyd-deploy <target-name> ， 可 以 很 容易 地 部 署 任 意 
服务 器 。 





$ scrapyd-deploy scrapyd1 


Packing version 1449991257 


Deploying to project "properties" in http://scrapyd1:6800/addversion. json 


Server response (200): 


{"status": "ok", "project": "properties", "version": "1449991257", 


"spiders": 2, "node name": "scrapydi"} 





该 过 程 会 留 给 我 们 一 些 额 外 的 目录 和 文件 (build 
、project.egg-info 、setup.py ) ， 我 们 可 以 安全 地 删除 它们 。 本 





ME, scrapyd-deplo``y 所 做 的 事情 就 是 打包 你 的 项 目 ， 并 使 
用 addversion.json 上 传 到 目标 Scrapyd 服 务 器 当中 。 


之 后 ， 当 我 们 使 用 scrapyd-deploy -L 查询 单 台 服务 器 时 ， 可 以 
确认 项 目 是 否 已 经 被 成 功 部 署 ， 如 下 所 示 。 





$ scrapyd-deploy -L scrapyd1 


properties 


我 还 在 项 目 目录 中 使 用 touch 创建 了 3 个 空 文件 (scrapyd1-3 
。 使 用 scrapyd* 扩展 为 文件 名 称 ， 同 样 也 是 目标 服务 器 的 名 称 
后 ， 你 可 以 使 用 一 个 bash 循 环 部 车 所 有 服务 器 : for i in scrapyd*; 
do scrapyd-deploy $i; done 。 





11.5 创建 自 定义 监控 命令 





如 果 想 监控 多 人 台 Scrapyd 服 务 咒 的 爬虫 进程 ， 则 需要 手动 执行 。 这 

是 一 个 很 好 的 机 会 ， ee ee 创 
建 一 个 原始 的 Scrapy 命 令 一 scrappy monitor ， 用 于 监控 一 组 
Scrapyd 服 务 器 。 我 们 将 该 文件 命名 为 monitor .py ， “a 
在 settings.py 文件 中 添加 COMMANDS_MODULE = 
'properties.monitor' 。 通 过 快速 浏览 Scrapyd 的 文档 ， 我 们 发 现 
listjobs.json 这 个 API 可 以 为 我 们 提供 任务 相关 的 信息 。 如 果 想 要 找 
到 给 定 目标 的 基础 URL， 可 以 猜 到 它 一 定 在 scrapyd-deploy 代码 中 的 
某 个 地 方 ， 从 而 可 以 让 我 们 在 单个 文件 中 找到 它 。 如 有 果 查 
看 https://github.com/scrapy/scrapyd- 
client/blob/master/scrapyd-client/scrapyd-deploy ， 很 快 就 
会 发 现 _get_target() 防 数 (由 于 其 实现 没有 添加 太 多 值 ， 因 此 我 会 
ANGE) ， 在 该 函数 中 将 会 给 我 们 提供 目标 名 称 及 其 基础 URL。 太 棒 
T! 我 们 开始 实现 该 命令 的 第 一 部 分 吧 ， 其 代码 如 下 所 示 。 


class Command(ScrapyCommand ) : 
requires_project = True 


def run(self, args, opts): 
self. to monitor = {} 
for name, target in self. _get_targets().iteritems(): 
if name in args: 
project = self.settings.get('BOT_NAME' ) 
url = target['url'] + "listjobs.json?project=' 


+ project 
self. _to_monitor[name] = url 


l = task.LoopingCall(self._ monitor) 
l.start(5) # call every 5 seconds 


reactor.run() 





目前 我 们 所 看 到 的 实现 还 是 很 简单 的 。 它 使 用 目标 名 称 和 我 们 想 要 
监控 的 API 地 址 填充 to_monitor 字典 。 然 后 ， 我 们 使 
用 task.LoopingCall() 计划 到 _monitor() 方法 的 定期 调 
用 。_monitor() 方法 使 用 了 treq 和 延迟 操作 ， 而 我 们 使 用 了 
@defer.inlineCallbacks 来 简化 其 实现 。 下 面 是 其 代码 (已 忽略 一 
些 错误 处 理 和 装饰 ) 。 





@defer.inlineCallbacks 
def _monitor(self): 
all_deferreds = [] 
for name, url in self. _to_monitor.iteritems(): 
d = treq.get(url, timeout=5, persistent=False) 
d.addBoth(lambda resp, name: (name, resp), name) 
all_deferreds.append(d) 


all_resp = yield defer.DeferredList(all_deferreds) 


for (success, (name, resp)) in all resp: 
json_resp = yield resp.json() 
print "%-2@s running: %d, finished: %d, pending: %d" % 
(name, len(json_resp[ 'running']), 


len(json_resp['finished']), len(json_resp[ 'pending' '])) 





上 面 这 些 行 已 经 包含 了 我 们 知道 的 几乎 所 有 Twisted 技 术 。 我 们 使 
用 treq 调用 Scrapyd 的 API， 并 且 使 用 defer.DeferredList 立即 处 理 
HAW. ARIANA AREA Sall resp 之 后 ， 则 开始 迭代 并 获 
取 其 JSON 对 象 。treq Response 的 json() 方法 将 会 返回 延迟 操作 ， 
而 不 是 真实 值 ， 我 们 对 其 执行 了 yield 操作 ， 并 会 在 未 来 的 某 个 时 间 点 








恢复 其 真实 值 。 最 后 一 步 ， 我 们 打印 出 结果 。JSON 啊 应 包含 竺 处理 、 
运行 中 及 已 完成 任务 列表 的 信息 ， 我 们 将 打印 出 它们 的 长 度 。 


11.6 {€H Apache Spark 流 计算 偏 移 量 


此 刻 ， 我 们 的 Scrapy 系 统 功能 齐全 。 现 在 ， 让 我 们 快速 看 一 下 
Apache Spark 的 功能 。 


在 本 章 最 开始 介绍 的 公式 shiftwon 非常 简单 好 用 ， 但 是 无 法 有 效 实 
现 。 我 们 可 以 通过 两 个 计数 器 计算 Price ， 使 用 2-niems 个 计数 器 计算 
Pricewitn ， 每 个 新 价格 只 需 更 新 其 中 的 4 个 。 不 过 计算 Pricewithout 则 是 一 
个 很 大 的 问题 ， 因 为 对 于 每 个 新 价格 来 说 ， 都 需要 更 新 2:(nwerms -1) 个 计 
Beas. EEO, Bele EUS jacuzzi th BBE Price, nour 计数 器 中 ， 
而 不 是 只 有 jacuzzi 这 一 个 。 这 会 造成 算法 由 于 包含 大 量 条 件 而 不 可 行 。 








为 了 解决 该 问题 ， 我 们 所 能 注意 到 的 是 ， 如 果 我 们 将 带 东 个 条 件 的 
房产 价格 ， 与 不 带 相同 条 件 的 房产 价格 相 加 ， 将 会 得 到 所 有 房产 的 价格 


Ji 


(很 明显 ! ) ， 即 ZPrice = ZPrice | „ip +2ZPrice | withour 。 因 此 ， 不 带 某 
个 条 件 的 房产 平均 价格 可 以 使 用 如 下 的 代价 很 小 的 操作 进行 计算 。 


Vieni AE p NISJA s PORAN 
Do.. 5 Price without 5 Price — 5 Price Fervor 
Price uithout = = 

N without N 一 Nwith 


EHIZAN, tits A VBE FAR 


本 S Pricelwun Y Price — Y Price 
Shifti rm — 


Mwith N Tmnth 














with ) j a Price 


现在 让 我 们 看 看 如 何 实现 该 公式 。 请 注意 此 处 不 是 Scrapy 的 代码 ， 
因此 感到 有 些 陌生 是 很 正常 的 ， 不 过 你 仍然 可 以 不 费 太 多 力气 就 能 阅读 
并 理解 该 代码 。 你 可 以 在 boostwords .py 中 找到 该 应 用 。 请 记 住 该 代 
码 中 包含 很 多 复杂 的 测试 代码 ， 你 可 以 安全 地 忽略 它们 。 其 核心 代码 如 
下 所 示 。 
# Monitor the files and give us a DStream of term-price pairs 


raw_data = raw_data = ssc.textFileStream(args[1]) 
word_prices = preprocess(raw_data) 


# Update the counters using Spark's updateStateByKey 
running word_prices = word_prices.updateStateByKey(update_state_function) 


# Calculate shifts out of the counters 
shifts = running word_prices.transform(to_shifts) 


# Print the results 
shifts .foreachRDD(print_shifts) 





Spark 使 用 所 谓 的 Dstream 表示 数据 流 。textFileSstream( ) 方法 
监控 文件 系统 的 目录 ， 当 它 检测 到 新 文件 时 ， 将 会 从 中 获取 数据 





流 。preprocess() 函数 将 其 转变 为 条 件 / 价 格 对 的 数据 流 。 我 们 通过 

Spark 的 updateStateByKey() 方法 ， 使 用 update_state o 
函数 ， 在 运行 的 计数 器 中 聚合 这 些 条 件 /价格 对 。 最 后 ， 

行 to_shifts() 计算 偏 移 量 ， 并 使 用 print_shifts()E ace 

佳 结果 。 我 们 的 大 部 分 功能 都 很 简单 ， 它 们 只 是 按照 对 Spark 高 效 的 方 

式 形成 数据 。 最 有 意思 的 例外 是 我 们 的 to_shifts() 函数 。 





def to shifts(word prices): 
(sum@, cnt@) = word prices.values().reduce(add tuples) 
avg6 = sum@ / cnt6 


def calculate_shift((isum, icnt)): 
avg_with = isum / icnt 
avg without = (sum@ - isum) / (cnt6 - icnt) 


return (avg with - avg without) / avg@ 


return word_prices.mapValues(calculate_shift) 





它 如 此 紧密 地 遵循 公式 ， 令 人 印象 非常 深刻 。 除 了 其 简单 性 之 外 ， 
Spark 的 mapValues() 使 我 们 的 (可 能 多 台 ) Spark 服 务 喜 能 够 以 最 小 网 
络 开 销 高 效 运行 calculate_shift 。 


11.7 运行 分 布 式 息 取 


我 通常 使 用 4 个 终端 查看 爬 取 的 完成 进度 。 为 了 使 本 节目 成 一 体 ， 
因此 我 还 为 你 提供 了 打开 到 相关 服务 嚣 终 靖 的 vagrant ssh 命令 〈 见 
图 11.3) 。 











‘properties 十 


CONTAINER CPU % MEM USAGE / LIMIT scrapyd1 running; 4, finished; 13, pending: @ 

dev 0.02% 60.2 MB / 4,145 GB a scrapyd2 running: 4, finished: 13, pending: 0 

es 0.32% 245.2 MB 145 5 scrapyd3 running: 4, finished: 12, pending: @ 
mysql 0.05% 534.7 MB .145 

redis 0.12% 7.733 MB .145 

scropyd1 130.50% 204,7 MB ,145 

scrapyd2 117.24% 193.9 MB ,145 - L "es 

Í scrapyd3 104.90% 197.7 MB / 4.145 s \ Ope 


k 1.02% 753.3 MB 145 A 
aa E 37.978 55-2 87 5 ca 2 i sraji 


root@dev: ~/book/ch1 


SNANNANAAN 
PP PRR RES 


scrapybook 一 root@spark: ~ — S... 
root@spark: ~ + 


4 [properties.middlewares] INFO: Posting batch 1 2000 URLs x ‘, @.37739569641092147), 
a [properties.middlewares] INFO: Posting batch 2000 URLs @. 2609822763035133), 

:37 [properties.middlewares] INFO: Posting batch i 2000 URLs $ @.17968955547361667), 
:39 [properties.middlewares] INFO: Posting batch i 2000 URLs @.16255286743694053), 
:40 [properties.middlewares] INFO: Posting batch i 200@ URLs 14266264458585862), 

:42 [properties.middlewares] INFO: Posting batch ith 2080 URLs to scrapyd1:6800 

:43 [properties.middlewares] INFO: Posting batch 2 i 2000 URLs scrapyd2:68@0 . 165978398424521), 

:45 [properties.middlewares] INFO: Posting batch ith 2000 URLs to scrapyd3:6800 -0 .28388620856061686), 
:46 [properties.middlewares] INFO: Posting batch i 2000 URLs to scrapyd1:6806 3503946343514336), 

:47 [scrapy] INFO: Closing spider (finished) 0. 3673718785236563), 
2015-12-13 16:04:47 [properties.middlewares] INFO: Posting batch i 570 URLs to scrapyd2: 6800 . 38401972065998013)) 
2015-12-13 16:04:47 [scrapy] INFO: Dumping Scrapy stats: 
{'downloader/request_bytes': 474372, 
"downLoader/request_count’: 1686, 
*downLoader/request_method_count/GET': 1686, 
'downLoader/response_bytes': 34321988, 
'downloader/response.count": 1686; spark-submit bookich11/boostwords. py items 
'downloader/response_status_count/2@0': 1686, 

"dupefilter/filtered': 19, 

"finish_reason'; ‘finished’, 

*finish_time': datetime.datetime(2@15, 12, 13, 16, 4, 47, 681065), 
"Log_count/INFO’: 33, 

*request_depth_max': 85, 

"response_received_count': no 
"scheduler/dequeued': 1686, 3 = Ne 

"scheduler/dequeved/mesory': 1686, fori iin scrapyd’: a“ fovea: deploy $i; done 
'scheduler/enqueued': 1686, 

'scheduler/enqueued/memory': 1686, scrapy crawl distr 

'start_time': datetime.datetime(2015, 12, 13, 16, 4, 9, 430900} 

2015-12-13 16:04:47 [scrapy] INFO: Spider closed (finished) 

root@dev:~/book/chil/properties# 


2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 
2015-12-13 16: 


SEE 


ra 
MI 








图 11.3 ”使 用 4 个 终端 监控 疏 取 


在 终端 1 中 ， a a 这 有 助 
于 识别 和 修复 潜在 问题 。 要 想 启 动 它 ， 可 运行 如 下 命 





$ alias provider_id="vagrant global-status --prune | grep 'docker- 


provider’ | awk '{print \$1}'" 


$ vagrant ssh $(provider_id) 


$ docker ps --format "{{.Names}}" | xargs docker stats 








前 面 两 行 稍微 复杂 的 代码 允许 通过 ssh 登 录 到 docker provider VM 
运 


中 。 如 果 使 用 的 不 是 虚拟 机 ， 而 
么 只 需要 最 后 一 行 。 


是 运行 在 docker 驱 动 的 Linux 机 右上， 那 


第 2 个 终端 同样 用 于 诊断 ， 一 般 按照 如 下 命令 使 用 它 运 行 scrapy 
monitor 。 





$ vagrant ssh 


$ cd book/ch11/properties 


$ scrapy monitor scrapyd* 


请 记 住 使 用 scrapyd* 以 及 以 服务 器 名 称 命名 的 空 文件 ，scrapy 
monitor scrapyd* 将 被 扩展 为 scrapy monitor scrapyd1 
scrapyd2 scrapyd3 。 


第 3 个 终端 是 我 们 的 开发 机 ， 我 们 在 这 里 局 动 怜 虫 。 除 此 之 外 ， 大 
部 分 时 间 是 空 亲 的 。 如 果 想 要 局 动 一 个 新 的 肘 虫 ， 可 以 执行 如 下 命令 。 





$ vagrant ssh 


$ cd book/ch11/properties 


$ for i in scrapyd*; do scrapyd-deploy $i; done 


$ scrapy crawl distr 


| 


最 后 两 行 是 最 基本 的 。 首 先 ， 我 们 使 用 for 循环 及 scrapyd- 
deploy 部 署 朴 虫 到 服务 器 中 。 然 后 ， 使 用 scrapy crawl distr ay 
和 仆 取 操作 。 我 们 也 可 以 运行 更 少 的 候 取 操作 ， 比 如 scrapy crawl 
distr -s CLOSESPIDER_PAGECOUNT=166 ， 以 爬 取 大 约 100 个 索引 
页 ， 相 当 于 大 概 3000 个 详情 页 。 








最 后 的 第 4 个 终端 用 于 连接 Spark 服 务 器 ， 我 们 将 使 用 它 运行 数 据 流 
分 析 任 务 。 





$ vagrant ssh spark 


$ pwd 


/root 


book items 


$ spark-submit book/ch11/boostwords.py items 








只 有 最 后 一 行 是 最 基本 的 ， 在 该 行 中 运行 了 boostwords .py ， 并 
将 我 们 本 地 的 items 目录 提供 给 监控 。 有 时 ， 我 还 会 使 用 watch Is -1 
items 来 关注 Item 文 件 的 到 达 情 况 。 





究竟 哪些 关键 词 对 价格 影响 最 大 呢 ? 我 把 它 作 为 惊喜 ， 留 给 那些 一 
直 跟 随 下 来 的 读者 们 。 


11.8 ”系统 性 能 
在 性 能 方面 ， 结 果 很 大 程度 上 取决 于 我 们 的 硬件 情况 ， 以 及 我 们 给 


虚拟 机 的 CPU 数量 和 内 存 大 小 。 在 实际 部 普 中 ， 我 们 可 以 获得 水 平 的 伸 
缩 性 ， 可 以 让 我 们 以 服务 器 允许 的 最 快速 度 运行 怜 取 。 








对 于 给 定 设 置 情况 下 的 理论 最 大 值 是 : 3 个 服务 器 : 4 个 处 理 器 /服务 
器 . 16 个 并 发 请 求 : 4 个 页 面 / 秒 (通过 页 面 下 载 延 迟 定义 ) = 768 个 页 面 / 


实践 时 ， 在 Macbook Pro 中 使 用 分 配 了 4GB 内 存 以 及 8 核 CPU 的 


VirtualBox 虚 拟 机 ， 我 可 以 在 2 分 40 秒 的 时 间 内 获取 50,000 个 URL， 也 就 
是 大 约 315 个 页 面 / 秒 。 在 拥有 2 个 vCPU 和 8GB 内 存 的 Amazon EC2 
m4.large 实 例 中 ， 由 于 有 限 的 CPU 能 力 ， 花 费 了 6 分 12 秒 的 时 间 ， 即 134 
个 页 面 / 秒 。 在 拥有 16 个 vCPU 和 64GB 内 存 的 Amazon EC2 m4.4xlarge 实 
例 中 ， 疏 取 完 成 时 间 是 1 分 44 秒 ， 即 480 个 页 面 / 秒 。 在 同一 台 机 器 中 ， 
我 将 Scrapyd 的 实例 数量 加 倍 ， 即 增加 到 6 个 〈 只 需 编 辑 Vagrantfile 
、scrapy.cfg 以 及 settings.py ) ， 此 时 疏 虫 完成 时 间 为 1 分 15 秒 ， 
即 其 速度 为 667 个 页 面 / 秒 。 在 最 后 一 种 情况 下 ， 我 们 的 web 服务器 似乎 
遇 到 了 瓶 倾 《在 实际 中 意味 判 中断) 。 


我 们 得 到 的 性 能 与 理论 最 大 值 之 间 的 距离 是 合理 的 。 有 很 多 小 的 延 
述 在 我 们 的 粗略 计算 中 是 没有 考虑 进去 的 。 尽 管 我 们 之 前 声称 有 250ms 
的 页 面 加 载 延 人 运 ， 但 是 在 前 面 的 章节 中 可 以 看 到 该 延迟 实际 上 更 大 ， 
为 至 少 还 有 Twisted 和 操作 系统 的 延 运 。 男 外 ， 还 有 一 些 其 他 延迟 ， 比 
如 URL 从 开发 机 传输 到 Scrapyd 服 务 器 的 时 间 、 我 们 息 取 的 Item 通过 
FTP 传 给 Spark 的 时 间 以 及 Scrapyd 发 现 和 计划 任务 所 花费 的 时 间 〈 平 均 
2.5 秒 一 一 参考 Scrapyd 的 poll_interval 设置 ) 。 此 外 ， 还 有 开发 机 以 
及 Scrapyd 疏 取 的 局 动 时间 没 有 计算 进来 。 我 将 不 会 尝试 改 善 这 些 延 迟 
中 的 任何 一 个 ， 除 非 能 确定 它们 可 以 提升 吞吐 量 。 我 的 下 一 步 是 增加 疏 
取 的 大 小 《比如 50 万 个 页 面 ) 、 负 载 均 衡 几 个 web 服务 器 实例 以 及 在 我 
们 的 扩展 尝试 中 发 现下 一 个 有 趣 的 挑战 。 

















11.9 ”关键 要 点 





本 章 最 重要 的 要 氮 是 ， 如 果 你 想 运 行 分 布 式 肘 虫 ， 则 应 当 使 用 合适 


的 批 次 大 小 。 


根据 源 网 站 的 啊 应 速度 ， 你 可 能 有 数 百 、 数 千 甚 至 数 万 个 URL。 你 
会 希望 它们 足够 大 ， 达 到 几 分 钟 的 级 别 ， 以 便 能 够 分 挫 局 动 成 本 。 而 男 
一 方面 ， 你 又 不 希望 它们 过 大 ， 因 为 这 将 会 使 机 器 故障 成 为 主要 风险 。 
在 容错 分 布 式 系 统 中 ， 你 可 以 重 试 失败 的 批 次 ， 但 你 不 会 希望 这 将 给 你 
带 来 几 个 小 时 的 工作 量 。 





11.10 AB )s 


RE HARES MOKA FT Scrapy Wh, MARIS EAR. REE 
己 经 对 Scrapy 的 能 力 有 了 非常 丰富 的 了 解 ， 并 且 能 够 使 用 它 实 现 或 简单 
或 复杂 的 爬虫 场景 。 你 也 会 对 使 用 这 样 一 个 高 性 能 系统 并 充分 利用 它 进 
行 开发 的 复杂 性 有 所 了 解 。 使 用 谎 虫 ， 你 可 以 通过 目 己 的 应 用 及 时 获取 
现实 世界 中 的 大 规模 数据 集 。 我 们 已 经 看 到 了 使 用 Scrapy 数 据 集 构建 手 
机 应 用 及 实现 有 趣 分 析 的 方式 。 和 希望 你 能 使 用 Scrapy 开 发 出 优秀 、 创 新 
的 应 用 ， 让 我 们 的 世界 变 得 更 好 。 视 你 好 运 ! 











附录 A ” 必 备 软件 的 安装 与 故障 排除 


A1 必 备 软件 的 安装 


本 书 使 用 了 庞大 的 虚拟 服务 器 系统 演示 现实 中 多 服务 器 部 署 环 境 下 
的 Scrapy 使 用 。 我 们 使 用 了 行业 标准 工具 一 -Vagrant 和 Docker， 来 搭建 
该 系统 。 由 于 本 书 严 重 依赖 于 网 站 内 容 和 布局 ， 如 果 我 们 使 用 不 可 控 的 
网 站 ， 那 么 我 们 的 例子 将 会 在 几 个 月 的 时 间 之 后 无 法 使 用 。Vagrant 和 
Docker 为 我 们 提供 了 一 个 独立 的 环境 ， 在 这 里 我 们 的 示例 无 论 现 在 还 是 
以 后 都 能 正音 运行 。 作 为 附 融 的 好 处 ， 我 们 不 会 访问 任何 远程 服务 器 ， 
因此 就 不 会 对 任何 网 站 管理 者 造成 不 便 。 即 使 我 们 破坏 了 某 些 东西 ， 造 
成 示例 无 法 工作 ， 也 可 以 使 用 两 个 命令 : vagrant destroy 和 
vagrant up --no-parallel ， 销 毁 并 重建 系统 ， 继 续 运 行 。 








在 开始 之 前 ， 我 需要 说 明 一 下 ， 该 基础 架构 是 专门 为 本 书 读者 的 需 
求 定 制 的 。 尤 其 是 有 关 Docker 的 部 分 ， 普 过 共识 是 每 个 Docker 容 器 应 当 
是 只 运行 单一 进程 的 微服 务 。 我 们 并 没有 这 么 做 。 我 们 的 很 多 Docker 容 
器 都 比较 重 ， 我 们 可 以 使 用 vagrant ssh 连接 它们 并 执行 各 种 操作 。 
尤其 是 我 们 的 开发 机 看 起 来 一 点 也 不 像 微 服务 。 这 是 我 们 去 往 该 隔离 系 
统 的 用 户 友好 的 网 关 ， 我 们 将 其 视 为 功能 齐全 的 Linux 机 器 。 如 采 我 们 
不 使 用 这 种 方式 改变 规则 ， 就 必须 使 用 大 量 的 Vagrant 和 Docker 命 令 ， 更 
加 深入 地 排查 故障 ， 在 这 种 情况 下 本 书 将 很 快 变 为 Vagrant/Docker 书 
籍 。 我 希望 Docker 爱 好 者 能 够 原谅 我 们 ， 并 且 每 位 读者 能 够 享受 到 





Vagrant 和 Docker 带 给 我 们 的 方便 和 益处 。 


本 书 中 的 容器 不 适用 于 生产 环境 。 





我 们 不 可 能 测试 每 个 软件 /硬件 的 配置 。 假 设 某 些 地 方 无 法 工作 ， 
如 果 可 以 的 话 ， 请 修复 它 并 在 GitHub 中 向 我 们 发 送 一 个 Pull Request。 如 
果 你 不 知道 如 何 修复 ， 那 么 请 在 GitHub 上 搜索 相关 issue， 如 果 不 存在 的 
话 请 打开 一 个 新 的 issue。 


A2 系统 


本 节 用 于 参考 。 你 可 以 先 跳 过 本 节 内 容 ， 当 想 要 更 好 地 理解 本 书 系 
统 的 构成 方式 时 ， 可 以 返回 来 阅读 本 市 。 我 们 在 相关 半 市 中 重复 了 本 市 


中 的 部 分 信息 。 














我 们 使 用 Vagrant 构 建 了 如 下 系统 〈 见 图 A.1) 。 
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图 A.1 本 书 使 用 的 系统 





在 图 A.1 中 ， 每 个 方 框 表示 一 台 服 务 器 ， 主 机 名 是 其 标题 的 第 一 部 
分 (dev. Web. es) 。 标 题 的 第 二 部 分 是 其 使 用 的 Docker 镜 像 
(scrapybook/dev . scrapybook/web . scrapybook/es 等 ) 。 下 
面 是 运行 在 该 服务 右上 的 软件 的 简要 描述 。 线 段 表 示 不 同 服务 器 之 间 的 
链接 ， 其 协议 写 在 线段 旁边 。Docker 所 提供 的 隔离 的 一 部 分 是 不 允许 超 
出 显 式 声明 的 连接 。 也 融 是 说 ， 比 如 你 想 在 Spark 服 务 恬 上 使 用 1234 端 
口 监听 某 些 东西 ， 除 非 你 在 Vagrant 文 件 中 添加 相关 声明 暴露 该 端口 ， 
否则 没有 人 能 连接 到 该 端口 。 请 记 住 这 一 点 ， 以 避免 在 其 他 服务 器 中 安 
装 目 定 义 软件 时 出 现 问题 。 





在 大 部 分 章节 中 ， 我 们 只 会 使 用 到 两 个 机 器 : dev 和 web 

o vagrant ssh 可 以 让 我 们 连接 到 开发 机 中 。 我 们 可 以 从 这 里 使 用 主 
机 名 很 轻松 地 访问 其 他 机 器 (mysql 、web 等 ) 。 我 们 可 以 通过 执行 如 
ping web 的 操作 来 确认 能 否 访问 web 机 器 。 我 们 在 每 章 中 使 用 并 解释 
了 很 多 命令 。 第 9 章 演 示 了 如 何 推送 数据 到 不 同 的 数据 库 。 第 11 章 使 用 
了 3 个 运行 Scrapyd 的 Docker 容 器 (实际 上 与 开发 机 相同 ， 以 减少 下 载 大 
小 ) ， 这 些 机 器 的 主机 名 分 别 是 scrapyd1-3 。 我 们 还 使 用 了 一 个 主机 
名 为 spark 的 服务 器 ， 用 于 运行 Apache Spark 以 及 FTP 服 务 。 可 以 使 

用 vagrant ssh spark 连接 该 服务 器 ， 并 运行 Spark 任 务 。 





可 以 在 GitHub 顶 级 目录 的 Vagrantfile 中 找到 该 系统 的 描述 。 当 
输入 vagrant up --no-parallel 时 ， 系 统 将 开始 构建 。 这 将 会 花费 
几 分 钟 时 间 ， 尤 其 是 在 第 一 次 构建 时 ， 我 们 将 会 在 后 面 的 FAQ 中 了 解 到 
更 详细 的 介绍 。 可 以 看 到 ， 本 书 代 码 是 挂 载 在 ~/book 目录 当中 的 。 任 
何 时 候 我 们 在 宿主 机 修改 其 中 的 内 容 时 ， 变 更 都 会 自动 传播 。 这 样 我 们 
就 可 以 使 用 文本 编辑 器 或 IDE 修 改 文件 ， 并 且 可 以 在 开发 机 中 快速 查看 
WILT: 


最 后 ， 一 些 监听 端口 被 转发 到 我 们 的 宿主 机 中 ， 并 暴露 了 相关 的 服 
务 。 比 如 ， 你 可 以 使 用 一 个 简单 的 web 浏览 器 来 访问 它们 。 如 果 你 已 经 
在 计算 机 中 使 用 了 其 中 某 个 端口 ， 那 么 会 产生 冲突 ， 导 致 系统 构建 无 法 
成 功 。 我 们 将 会 在 后 面 的 FAQ 中 告知 你 如 何 解 决 这 种 情况 。 表 A.1 是 转 
发 的 端口 列表 。 


AAI 


a || 





机 器 和 服务 从 开发 机 访问 的 地 址 | 从 你 的 〈 和 宿主 ) 机 访问 的 地 址 


Web 一 eb 服 务 器 http://web:9312 http://localhost: 


dev—scrapyd http://dev: 6800 http://localhost: 


scrapyd1—scrapyd http: //scrapyd1:6800 http://localhost: 


scrapyd2—scrapyd http://scrapyd2:6800 http://localhost: 


scrapyd3—scrapyd http: //scrapyd3: 6800 http://localhost: 


es—Elasticsearch API http://es:9200 http://localhost: 


spark—FTP ftp://spark:21 & 30000-9 | ftp://localhost:21 & 30000-9 


Redis—Redis API redis://redis:6379 redis://localhost:6379 


MySQL - MySQL 数 据 库 mysql: //mysql: 3306 mysql://localhost: 3306 








部 分 机 器 的 ssh 也 是 暴露 的 ，Vagrant 负 责 为 我 们 重 定 向 并 转发 这 些 
端口 ， 以 避免 冲突 。 我 们 所 需要 做 的 束 是 运行 vagrant ssh 
<hostname> 来 访问 想 要 连接 的 机 器 。 


A.3 安装 概述 


我 们 所 需 安装 的 必要 软件 如 下 : 


e Vagrant; 
e git; 
e VirtualBox (Windows 或 Mac 主 机 ) 或 Docker (Linux 主 机 ) 。 


在 Windows 中 ， 可 能 还 需要 启用 git ssh 客户 端 。 你 可 以 访问 它们 
的 网 站 ， 并 遵照 它们 对 你 所 使 用 的 平台 描述 的 步 又 操作 。 在 下 面 几 市 
中 ， 我 们 将 尝试 提供 逐步 指引 方案 ， 目 前 来 说 这 些 方法 是 有 效 的 ， 不 过 
它们 肯定 会 在 未 来 某 个 时 间 失 效 ， 因 此 也 请 随时 关注 其 官方 文档 。 

















A.4 在 Linux 上 安装 





我 们 之 所 以 首先 介绍 如 何在 Linux 上 安装 系统 是 因为 它 是 最 简单 
的 。 我 将 以 Ubuntu 14.04.3 LTS (Trusty Tahr) 进 行 演 示 ， 不 过 该 过 程 在 其 
他 分 发 版 本 中 也 会 十 分 相似 ， 当 然 分 发 版 本 越 不 弟 匈 ， 你 就 越 能 了 解 如 
何 填补 其 中 的 差距 。 为 了 安装 Vagrant， 需 要 访问 Vagrant 的 网 站 : 
https://www.vagrant.com/ ， 并 浏览 其 下 载 页 。 碳 键 单 击 Debian 
package, 64-bit version 。 复 制 链 接地 址 ， 如 图 A.2 所 示 。 
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图 A.2 


我 们 将 使 用 终端 安装 Vagrant， 因 为 这 是 最 通用 的 方式 ， 尽 管 可 以 
在 Ubuntu 上 通过 几 下 单 击 达 成 相同 目的 。 为 了 打开 终端 ， 需 要 单 击 屏 幕 
左上 角 的 Ubuntu 图 标 来 打开 Dash 。 另 一 种 方案 是 ， 按 下 Windows 按 
键 。 然 后 输入 terminal ， 并 单 击 Terminal 图 标 以 打开 它 。 





我 们 输入 wget ， 并 粘贴 从 Vagrant 页 面 中 得 到 的 链接 。 几 秒 后 ， 将 
会 下 载 一 个 .deb 文件 。 输 入 sudo dpkg -I <name of the .deb 
file you just downloaded> 以 安装 文件 。 到 这 里 为 止 ，Vagrant 已 经 
被 安装 好 了 了。 


git 只 需要 在 终端 中 输入 如 下 两 行 命令 。 


$ sudo apt-get update 


$ sudo apt-get install git 





现在 ， 让 我 们 来 安装 Docker。 我 们 将 按照 https://docs.docker. 
com/engine/ installation/ubuntulinux/ 的 指南 进行 安装 。 在 终 


端 中 ， 输 入 如 下 命令 。 





$ sudo apt-key adv --keyserver hkp://p86.pool.sks-keyservers.net:86 


--recv-keys 58118E89F3A912897C070ADBF76221572C52609D 


$ echo "deb https://apt.dockerproject.org/repo ubuntu-trusty main" | sudo 


tee /etc/apt/sources.list.d/docker.list 


$ sudo apt-get update 


$ sudo apt-get install docker-engine 


$ sudo usermod -aG docker $(whoami) 


我 们 登 出 并 再 重新 登录 以 应 用 分 组 变化 ， 此 时 ， 应 该 可 以 没有 问题 
地 使 用 docker ps 命令 了 。 现 在 ， 我 们 可 以 下 载 本 书 的 代码 ， 并 至 受 本 
书 内 容 。 


$ git clone https://github.com/scalingexcellence/scrapybook.git 


$ cd scrapybook 


$ vagrant up --no-parallel 





A.5 在 Windows 或 Mac 上 安装 





Windows 和 Mac 环 境 中 的 安装 过 程 是 相似 的 ， 因 此 我 们 将 一 起 介 


ANS 
DY 


这 两 种 环境 下 的 安装 ， 并 凸显 它们 之 间 的 区 别 。 
A.5.1 安装 Vagrant 


为 了 安装 Vagrant， 我 们 需要 访问 Vagrant 的 网 站 : https://www. 
vagrantup.com/ ， 并 浏览 其 下 载 页 。 选 择 自己 的 操作 系统 ， 并 使 用 
安装 癌 导 进行 安装 ， 如 图 A.3 所 示 。 
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几 次 单 击 之 后 ，Vagrant 将 会 安装 好 。 要 想 访 问 它 ， 需 要 打开 命令 
AT MAY 


A.5.2 ”如 何 访 问 终 闹 


在 Windows 中 ， 可 以 按 下 Ctrl + Esc 或 Win 键 打开 应 用 菜单 ， 并 搜 
索 cmd 。 而 在 Mac 中 ， 可 以 按 下 Cmd + Space ， 并 搜索 terminal 。 上 述 
访问 方式 如 图 A.4 所 示 。 
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图 A.4 


无 论 哪 种 情况 ， 我 们 都 得 到 了 一 个 控制 台 窗 口 ， 当 我 们 输 
Avagrant 时 ， 将 会 打印 出 一 些 说 明 。 这 就 是 我 们 现在 所 需要 做 的 所 有 
事情 。 


A.5.3 ”安装 VirtualBox 和 Git 


为 了 简化 该 步骤 ， 我 们 将 安装 Docker Toolbox， 在 其 中 已 经 包含 了 
Git 和 VirtualBox。 如 果 我 们 使 用 Google 搜 索 docker toolbox install ， 可 以 


找到 https://www.docker.com/ docker-toolbox ， 在 这 里 可 以 下 
载 适 用 于 我 们 操作 系统 的 版 本 。 安 装 过 程 像 Vagrant 一 样 简 单 ， 如 网 A.5 
所 示 。 
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图 A.5 


A.5.4 确保 VirtualBox 支 持 64 位 镜像 


安装 好 Docker Toolbox 之 后 ， 可 以 在 Windows 晶 面 或 Mac 的 局 动 器 
( 按 下 F4 打 开 ) 中 找到 VirtualBox 的 图 标 。 尽 早 检查 VirtualBox 是 否 文 持 
64 位 镜像 非常 重要 ， 检 查 过 程 如 图 A.6 所 示 。 
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图 A.6 


打开 VirtualBox， 单 击 New 按钮 来 创建 一 个 新 的 虚拟 机 。 查 看 版 本 
下 拉 荣 单 ， 检 查 其 中 的 选项 ， 然 后 单 击 Cancel 。 我 们 现在 还 不 需要 真正 
创建 一 个 虚拟 机 。 


Q 


如 果 下 拉 沫 单 中 包含 64 位 镜像 ， 那 么 我 们 可 以 跳 过 本 节 接 下 来 的 部 分 。 





如 果 下 拉 荣 单 中 没有 包含 64 位 镜像 ， 或 者 当 我 们 答 试 运行 一 个 64 位 


虚拟 机 时 得 到 类 似 VT-x/AMD-V hardware acceleration is notavailable 
on your system 的 错误 信息 的 话 ， 我 们 可 能 就 有 一 些 抹 烦 了 。 


这 意味 着 VirtualBox 无 法 检测 到 我 们 电脑 中 的 VT-x 或 AMD-V 扩 展 。 
如 果 我 们 的 硬件 过 旧 ， 那 么 这 种 情况 是 合理 且 符 合 预 期 的 。 但 是 如 果 是 
新 人 硬件， 那么 很 可 能 是 由 于 这 些 扩展 在 BIOS 中 被 禁用 了。 如 果 我 们 使 
用 的 是 Windows 系 统 〈 很 大 可 能 ) ， 一 个 简单 的 方式 是 通过 名 为 
SecurAble 的 工具 进行 检查 ， 该 工具 可 以 从 https://www.grc.com/ 
securable.htm 中 下 载 。 如 果 Hardware Virtualization 为 红色 有 旦 提示 
为 No 的 话 ， 就 意味 着 我 们 的 CPU 不 文 持 必要 的 虚拟 扩展 。 在 这 种 情况 
下 ， 我 们 将 无 法 运行 VagranVDocker， 不 过 我 们 仍然 可 以 安装 Scrapy， 
并 且 使 用 在 线 网 站 (scrapybook.s3. amazonaws.com ) 作为 源 来 运 
行 这 些 示 例 。 我 们 可 以 从 第 4 章 中 的 爬虫 开始 使 用 ， 该 肘 虫 是 可 以 直接 
拿 来 使 用 的 ， 并 且 是 针对 在 线 网 站 构建 的 。 








如 果 Hardware Virtualization 为 绿色 ， 我 们 很 可 能 可 以 从 BIOS 中 局 
用 该 扩展 。 使 用 Google 搜 索 你 的 电脑 机 型 ， 以 及 如 何 变更 BIOS 中 关于 
VT-x 或 AMD-V 的 设置 。 通 常情 况 下 ， 我 们 可 以 在 重启 时 按 下 茶 个 按键 
以 访问 BIOS。 在 这 里 ， 我 们 需要 进入 安全 相关 的 荣 单 ， 然 后 局 
用 Virtualization Technology (VTx) 或 其 他 类 似 写 法 的 选项 。 重 局 过 
后 ， 我 们 将 能 够 从 该 计算 机 运行 64 位 的 虚拟 机 。 





A.5.5 在 Windows 中 局 用 ssh 客 户 端 

如 果 我 们 使 用 的 是 Mac， 将 不 需要 本 步 ， 可 以 直接 跳 到 下 一 节 中 。 
如 果 我 们 使 用 的 是 Windows， 则 没有 提供 给 我 们 默认 的 ssh FP vig. 34 
运 的 是 ，Git 〈 我 们 刚才 安装 的 ) 有 一 个 ssh 客户 端 ， 我 们 可 以 通过 添加 


Windows Path 的 方式 激活 它 ， 如 图 A.7 所 示 。 








\ \b 
Jj Untitled - notepad 


Control Pane! Home : i work drive... | 添加 
一 在 这 里 


i | Device Manager 
Computer Name | Hardware Ad. 
H 5 Remote settings 
You must be logged on as an A 
Pes 1 @® Advanced system se 





im Files \Git\bin;C: Program 


Lox ] cm | 


C:Program Fe 
9%iUSERPROFILE%WppDataVocaliTemp 
MUSERPROFILE% app Data ocal\Temp 








图 A.7 


默认 情况 下 ，ssh 的 二 进 制 文 件 位 于 C:\Program 
Files\Git\usr\bin 中 (图 A.7 所 示 的 1 区 域 )。 我 们 需要 添 
加 C:\Program Files\Git\usr\bin 和 C:\Program 
Files\Git\bi` n 到 路 径 当 中 。 为 了 实现 该 目的 ， 我 们 需要 将 它们 复 
制 到 记事 本 中 ， 并 在 每 个 路 径 前 添加 ;来 连接 它们 《如 图 A.7 所 示 的 3 区 
域 )。 最 终结 果 如 下 所 示 : 





;C:\Program Files\Git\bin;C:\Program Files\Git\usr\bin 


现在 ， 按 下 Ctrl + Esc 或 Win 按键 ， 打 开 开 始 菜 单 ， 然 后 找到 
Computer (it HL) 选项 。 右 键 单 击 它 (图 A.7 所 示 的 4 区 域 ， 并 选 
择 Properties( 属 性) 。 在 弹出 的 窗口 中 ， 选 择 Advanced System 
Settings (高 级 系统 设置 ) 。 然 后 ， 单 击 Environment Variables (环境 
变量 ) 。 这 里 是 我 们 用 于 编辑 Path 的 表单 。 单 击 Path 以 编辑 它 。 在 
Edit User Variable 〈 编 辑 用 户 变 量 ) 对 话 杠 中， 我 们 在 结尾 处 粘贴 在 
记事 本 中 连接 的 两 个 新 路 径 。 应 当 小 心 不 要 意外 上 履 盖 退 加 路 径 ;， 之 前 的 
任何 值 。 然 后 单 击 几 次 OK CE) ， 退 出 所 有 对 话 框 ， 此 刻 必 备 软件 
已 经 全 部 安装 完毕 。 


A5.6 下载 本 书 代码 并 创建 系统 


现在 ， 我 们 已 经 拥有 了 一 个 功能 齐全 的 Vagrant 系 统 ， 接 下 来 打开 
一 个 新 的 控制 台 /终端 /命令 行 ( 我 们 已 经 在 前 面 见 过 如 何 打 开 〉， 输 入 
OUR aS, ESCA AT TAR A AB 








$ git clone https://github.com/scalingexcellence/scrapybook. git 


$ cd scrapybook 


$ vagrant up --no-parallel 


A6 系统 创建 与 操作 FAQ 





接 下 来 是 你 在 首次 使 用 Scrapy 工 作 时 可 能 遇 到 的 问题 的 解决 方案 。 
A.6.1 我 应 访 下 载 什么 以 及 需要 花 费 多 少时 间 

当 我 们 运行 vagrant up --no-parallel 之 后 ， 就 没有 那么 多 的 
可 见 度 了 。 所 经 过 的 时 间 与 我 们 的 下 载 速度 及 网 络 连 接 质量 密切 相关 。 


图 A.8 所 示 为 当 网 络 连接 能 力 达 到 每 秒 下 载 5MB (38Mbit/s) 内 容 时 的 期 
望 时 间 。 


9. Start dev, scrapyd* etc. 


\ MA (40" - ) \ 1. Download host VM 
/ (2'00" - 400 MB) 


8. Start MySQL server 
1'30" - 60 MB 
( ) \ N me Start host VM 


7. Start Redis server 


=——% 

(30" - 5 MB) a | 

6. Start ES server — _/ | — 3. Provision docker 
{40" - 30 MB) {1'30" - 30 MB) 


Time: 12'30" 
Download: 1.5 GB 





5. Start Spark server —___/ ~~ 
(2'10" - 320 MB) 4. Download base, 
\——— start web server 
(3'20" - 600 MB) 


图 A.8 


如 果 我 们 使 用 的 是 Linux 环 境 ， 或 是 Docker 已 经 被 安装 好 ， 那 么 前 
三 步 就 不 是 必要 的 ， 这 样 可 以 为 我 们 节省 4 分 钟 的 时 间 以 及 450MB 的 下 
载 量 。 


请 注意 ， 上 述 所 有 步骤 Be keel an up -- 
no-parallel 命令 的 第 一 次 运行 相关 。 后 续 运 行 在 通常 情况 下 只 会 花 
费 不 到 10 秒 的 时 间 。 





A.6.2 ”如 果 Vagrant 无 法 响应 应 该 怎么 办 


可 能 会 有 很 多 原因 导致 Vagrant 无 法 啊 应 ， 我 们 所 需要 做 的 就 是 按 
下 Ctrl + C 两 次 从 中 退出 。 然 后 再 次 答 试 vagrant up --no-parallel 
， 此 时 应 当 能 够 恢复 。 我 们 可 能 需要 这 样 做 几 次 ， 这 取 雇 于 网 络 连 接 的 


速度 和 质量 。 如 果 打 开 Windows Task Manager (Windows 任 务 管 理 
器 ) 或 Mac 的 Activity Monitor 〈 活 动 监视 器 ) ， 可 以 更 清晰 地 看 到 
Vagrant 下 在 做 什么 ， 如 图 A.9 所 示 。 








Windows Task Manager $ 


| File Options View Help 








Applications | Processes | Services. | Performance | Network 


Local Area Connection 






72 ns 
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Wireless Network Connection 








在 下 载 期 间或 之 后 不 超过 60 秒 的 短暂 无 法 响应 是 可 以 预期 的 ， 因 为 
此 时 软件 正在 进行 安装 。 而 更 长 时 间 的 无 法 响应 则 很 有 可 能 意味 着 出 现 
了 某 些 问题 。 











当 我 们 中 断后 再 恢复 时 ，vagrant up --no-parallel 可 能 会 执 
行 失败 ， 并 返回 类 似 下 面 所 述 的 错误 信息 。 


Vagrant cannot forward the specified ports on this VM... The forwarded 
port to 21 is already in use on the host machine. 





这 同样 是 一 个 临时 性 的 问题 。 如 果 我 们 再 次 运行 vagrant up -- 
no-parallel ， 则 应 该 能 够 成 功 恢复 。 


假设 我 们 见 到 了 如 下 的 失败 信息 。 


. Command: "docker" "ps" "-a" "-q" "--no-trunc" 
Stderr: bash: line 2: docker: command not found 





如 果 发 生 该 情况 ， 请 按照 下 一 个 问题 所 显示 的 方法 关闭 并 恢复 虚拟 
机 。 


A.6.3 如何 快 速 关 闭 / 恢 复 虚 拟 机 


当 使 用 虚拟 机 时 ， 最 快 的 关闭 方式 是 进入 节能 状 RARA xe 
打开 VirtualBox， 选 择 虚 拟 机 ， 按 下 Ctrli+ V Bk Cmd+V, | ahaa 
单 并 选择 Save State ( 保存 状态 ) ， 如 图 A.10 所 示 。 
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图 A.10 


我 们 可 以 通过 运行 vagrant up --no-parallel 恢复 虚拟 机 。 开 





发 和 Spark 服 务 器 的 ~/book 目录 都 应 该 可 以 正常 工作 。 





A.6.4 如 何 完全 重 置 虚拟 机 


如 采 我 们 想 要 变更 核心 数量 、 内 存 大 小 或 虚拟 机 的 端口 映射 ， 则 需 
要 进行 完全 重 置 。 为 了 达到 该 目的 ， 我 们 仍然 需要 按照 前 一 个 答案 的 步 
又 操 作 ， 不 过 现在 要 选择 的 是 Power Off (关闭 电源 ) ， 或 者 按 下 Ctrl 
+ F aK Cmd + 下。 我 们 也 能 通过 编程 方式 完成 此 事 ， 其 执行 语句 
是 vagrant global-status --prune 。 我 们 可 以 找到 名 为 “docker- 
provider” 的 虚拟 主机 的 ID (比如 95d1234) ， 然 后 使 用 vagrant halt 
停止 它 ， 比 如 vagrant halt 957d887 。 





然后 ， 可 以 使 用 vagrant up --no-parallel 重启 系统 。 不 过 很 
遗憾 的 是 ， 开 发 和 Spark 机 器 很 可 能 已 经 清空 了 其 ~/book 目录 。 要 想 解 
决 该 问题 ， 可 以 运行 vagrant destroy -f dev spark ， 然 后 重新 运 
行 vagrant up --no-parallel 。 这 将 解决 此 类 问题 。 


A.6.5 如何 调 整 虚 拟 机 大 小 


我 们 可 能 想 要 改变 虚拟 机 的 大 小 ， 比 如 将 使 用 的 内 存 从 2GB 调 整 为 
1GB， 将 使 用 的 8 核 调整 为 4 核 。 我 们 可 以 通过 编辑 
Vagrantfile.dockerhost 的 vb.memory 及 vb.cpus 设置 来 进行 调 
整 。 然 后 ， 按 照 上 一 个 答案 的 流程 完全 重 置 虚拟 机 。 


A.6.6 ”如何 解 诀 问 口 冲突 


有 时 ， 在 主机 上 运行 的 一 些 服务 可 能 占用 了 该 系统 需要 的 端口 。 首 
先 ， 请 注意 如 果 我 们 打开 了 这 两 个 机 器 的 Vagrantfile ， 请 移 除 其 中 


所 有 的 forwarded_port 语句 ， 按 照 后 面 讲 到 的 方法 重 置 ， 此 时 仍然 能 
cea 我 们 可 能 刚好 不 太 容 易 检查 宿主 机 上 这 些 端口 运 
行 的 服务 (通常 通过 Web 浏 览 器 )。 








也 束 是 说 ， 我 们 可 以 通过 重新 映射 冲突 端口 的 方式 更 适当 地 解决 冲 
。 让 我 们 使 用 Web 服务 器 9312 端 口 的 冲突 作为 示例 。 根 据 我 们 运行 的 
生 Linux 还 是 虚拟 机 ， 过 程 会 有 些许 不 同 。 


Linux 坏 境 使 用 原生 Docker 


可 题 将 表现 为 如 下 所 示 的 错误 信息 


Stderr: Error: Cannot start container a22f...: failed to create 
endpoint web on network bridge: Error starting userland proxy: listen 
tcp @.0.0.0:9312: bind: address already in use 





打开 Dockerfile， 编 辑 Web 服 务 器 中 forwarded_port 语句 的 host 
值 。 之 后 ， 使 用 vagrant destroy web 销毁 Web 服 务 器 ， 并 通过 
vagrant up web 重启 ， 如 果 问 题 发 生 在 初始 化 加 载 阶段 ， 则 使 
用 vagrant up --no-parallel 恢复 加 载 。 


Windows 或 Mac 环 境 使 用 虚拟 机 
此 时 ， 我 们 会 得 到 不 同 的 错误 信息 。 





Vagrant cannot forward the specified ports on this VM, since they 
would collide... The forwarded port to 9312 is already in use 
on the host machine... 


pT 


为 了 修复 该 问题 ， 我 们 需要 打开 Vagrantfile.dockerhost ， 移 
除 已 有 的 包含 端口 号 的 行 。 然 后 在 下 面 添加 上 自 定义 端口 转发 语句 ， 比 
如 : config.vm.network “forwarded port”, guest: 9312, 
host: 9316 。 此 时 将 会 修改 为 使 用 9316 端 口 。 接 下 来 ， 按 照 * 如 何 完全 
重 置 虚 拟 机 ”这 一 问题 的 答案 流程 重 置 虚拟 机 ， 一 切 又 都 会 正常 工作 
Ta 


A.6.7 如何 隐藏 在 公司 代理 背后 工作 


有 一 些 简单 代理 和 TLS 拦 截 代理 。 简 单 代理 需要 我 们 在 请 求 到 达 互 
联网 之 前 ， 转 发 到 代理 服务 器 上 。 它 们 可 能 需要 权限 验证 ， 也 可 能 不 需 
要 ， 不 过 无 论 哪 种 情况 ， 我 们 需要 使 用 的 信息 就 是 URL， 该 URL 可 以 从 
我 们 的 开 部 门 获 取 到 。 它 大 概 形 如 
http://user:pass@proxy .com:8080/ 。 如 果 我 们 使 用 的 是 Linux， 
而 不 是 虚拟 机 ， 很 可 能 已 经 完全 正确 配置 ， 不 再 需要 进一步 的 调整 。 不 
过 如 果 我 们 使 用 的 是 虚拟 机 ， 则 需要 使 代理 服务 器 在 Vagrant、Docker 
provider VM、Ubuntu 的 APT 下 载 以 及 Docker 服 务 上 自身 都 应 当 可 用 。 上 所 有 
这 些 操作 都 已 经 在 Vagrantfile.dockerhost 中 进行 了 处 理 ， 我 们 只 
需要 移 除 定义 proxy_url 行 的 注释 ， 并 正确 设置 其 值 即 可 。 











假设 过 到 了 如 下 的 SSL 相 关 的 问题 。 





SSL certificate problem: unable to get local issuer certificate 


If you'd like to turn off curl's verification of the certificate, use 
the -k (or --insecure) option. 


a ëO 


无 论 是 Vagrant 还 是 部 署 的 Docker， 我 们 都 很 可 能 需要 处 理 TLS 拦 截 
代理 的 问题 。 这 种 代理 则 在 以 一 种 “中 间 人 ”的 角色 监控 所 有 安全 和 不 安 
全 流量 。 它 们 代表 我 们 执行 https 请 求 ， 在 必要 时 验证 证 书 ， 而 我 们 执行 
到 它们 的 https 连 接 ， 验 证 它们 的 证 书 。 我 们 的 开 部 门 很 可 能 会 提供 给 我 
们 一 个 证 书 ， 通 常情 况 下 是 .crt 文件 的 形式 。 我 们 将 该 文件 的 副本 放 
到 本 书 主 目录 下 (Vagrantfile 所 在 的 目录 ) 。 接 下 来 ,按照 前 面 例 
子 设置 proxy_url ， 然 后 更 进一步 取消 挥 定义 crt_filename 变量 所 在 
行 的 注释 ， 将 其 值 设 置 为 我 们 的 证 书 文件 的 名 称 。 





A.6.8 如 何 连接 Docker provider 虚 拟 机 


如 果 我 们 处 于 Linux 环 境 中 ， 并 且 没 有 使 用 虚拟 机 ， 那 么 我 们 的 机 
器 已 经 是 Docker provider， 此 时 无 需 做 任何 事情 。 如 果 我 们 使 用 的 是 虚 
拟 机 ， 那 么 可 以 通过 运行 vagrant global-status --prune 得 到 
Docker provider 的 ID， 然 后 找到 名 为 docker-provider 的 机 器 。 我 们 可 
以 在 Linux 或 Mac 环 境 中 ， 使 用 别名 的 方式 对 其 实现 自动 化 。 











$ alias provider_id="vagrant global-status --prune | grep 'docker- 


provider’ | awk '{print \$1}'" 


我 们 可 以 使 用 vagrant ssh <provider id> ， 或 者 在 已 设置 别名 
的 情况 下 使 用 vagrant ssh $(provider_id) 来 连接 Docker provider. 
在 这 里 是 Ubuntu Trusty 64 位 虚拟 机 。 


A.6.9 每 个 服务 器 使 用 了 多 少 CPU/ 内 存 


如 果 我 们 使 用 了 原生 Docker， 或 者 按照 前 一 个 答案 描述 的 方法 连接 
到 了 provider， 那 么 可 以 通过 docker stats ， 看 到 每 台独 立 Docker 容 器 
所 消耗 的 资源 ， 如 下 所 示 。 


$ docker ps --format "{{.Names}}" | xargs docker stats 








图 A.11 所 示 为 运行 第 11 章 代码 时 的 示例 输出 ， 此 时 是 Scrapyd 从 Web 
服务 器 集中 下 载 的 时 间 。 


CONTAINER MEM USAGE / LIMIT 
dev : 63.61 MB / 2.099 GB 
es : 295.1 MB / 2.099 GB 
mysql ; 54.3 MB / 2.099 GB 
redis 


scrapyd1 
scrapyd2 
scrapyd3 
spark 
web 








图 A.11 


A.6.10 ”如 何 查 看 Docker 容 器 镜像 的 大 小 


如 果 我 们 使 用 了 原生 Docker， 或 者 按照 之 前 答案 中 看 到 的 方法 连接 
到 了 provider， 那 么 可 以 使 用 如 下 命令 查看 Docker 镜 像 大 小 。 





$ docker images 








本 书 的 容器 部 是 基于 一 个 镜像 ， 每 个 变 体 上 安装 的 其 他 软件 都 很 
少 。 因 此 ， 我 们 看 到 的 GB 级 的 大 小 是 虚拟 大 小 ， 而 不 是 真实 占用 的 磁 
盘 空 间 。 如 果 我 们 想 要 奉 看 镜像 的 构建 层次 以 及 个 体 大 小 ， 可 以 为 很 长 
的 dockviz 命令 创建 一 个 别名 ， 然 后 按照 如 下 所 示 进 行使 用 。 





$ alias dockviz="docker run --rm -v /var/run/docker.sock:/var/run/docker. 


sock nate/dockviz" 


$ dockviz images -t 





A.6.11 当 Vagrant 无 法 啊 应 时 ， 如 何 重 置 系统 


即使 最 终 处 于 一 个 连 Vagrant 也 无 法 重 置 的 混乱 状态 ， 我 们 也 可 以 
对 系统 进行 完全 重 置 。 我 们 可 以 在 不 重 置 虚拟 主机 的 情况 下 做 到 这 一 
点 ， 妆 然 这 种 方式 需要 花费 一 些 时 间 来 完成 。 我 们 所 需要 做 的 就 是 连接 
到 docker provider 机 器， 强行 停止 所 有 容器 ， 移 除 它们 的 镜像 ， 然 后 重 
局 Docker。 有 基体 命令 如 下 所 示 。 











$ docker stop $(docker ps -a -q) 


$ docker rm $(docker ps -a -q) 


$ sudo service docker restart 





也 可 以 使 用 如 下 命令 。 


$ docker rmi $(docker images -a | grep "<none>" | awk "{print $3}") 








我 们 使 用 这 种 方式 移 除了 下 载 的 所 有 Docker 层 内 容 ， 这 就 意味 着 下 
一 次 执行 vagrant up --no-parallel 时 将 会 花费 一 些 时 间 用 于 下 
载 。 


A.7 有 一 个 无 法 解决 的 问题 ， 怎 么 办 


我 们 可 以 随时 使 用 VirtualBox 以 及 从 osboxes.org ( 
http://www.osboxes.org/ubuntu/ ) 下 载 得 到 的 Ubuntu 
14.04.3 (Trusty Tahr) 镜像 ， 按 照 Linux 的 安装 过 程 操 作 。 代 码 将 会 完全 





运行 在 虚拟 机 里 。 我 们 唯一 会 忽略 的 事情 是 端口 转发 和 同步 文件 夹 ， 这 
意味 着 要 么 我 们 手动 设置 它们 ， 要 么 在 虚拟 机 中 进行 开发 。 


欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗 下 IT 专 业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 开 专 业 优 质 出 版 资源 和 编 
辑 策 划 团 队 ， 打 造 传统 出 版 与 电子 出 版 和 目 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平 合 ， 提 供 最 新 技术 资讯 ， 
为 作者 和 读者 打造 交流 互动 的 平台 。 
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RUSH, MIM MMI2017! 为 答谢 社区 用 户 
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Bs Fests is] 多 
免费 电子 书 
Free eBook 
我 要 写 书 
Write for Us 
Python 机 器 学 习 一 一 预 。 贝 叶 斯 方法 : AER 机 器 学 习 项 目 开 发 实战 DOH Sae : 统计 建 模 
测 分 析 核 心算 法 与 见 叶 斯 推断 的 Python 学 习 法 近期 活动 


人 区 


购买 图 书 


我 们 出 版 的 图 书 涵盖 主流 I 技术 ， 在 编程 语言 、Web 技 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实 现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 


下 载 资 源 








社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代 码 。 


另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 束 
可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技 术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
Ho 





灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直 接 从 人 民 
邮电 出 版 社 书 库 发 货 ， 电 子 书 提 供 多 种 阅读 格式 。 


对 于 重 傍 新 书 ， 社 区 提供 预 售 和 新 书 首 发 服务 ， 用 尸 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 





用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ， 在 + Mm 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


| EE 





购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 
时 输入 “57AWG”， 然 后 点 击 “ 使 用 优惠 码 ” 即 可 享受 电子 书 8 折 优 惠 ( 本 优惠 券 只 可 使 用 一 
次 ) 。 



































纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 
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社区 里 还 可 以 做 什么 


提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 





写作 
社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 


身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 


如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 至 特 
色 服 务 。 


会 议 活动 早 知道 
您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 
AFA 


扫描 任意 二 维 码 都 能 找到 我 们 : 





异步 社区 














官方 微 博 





QQ 群 : 436746675 


社区 网 址 : www.epubit.com.cn 


异步 社区 


= 
H: 


官方 微 


官方 微 博 : @ 人 邮 录 步 社 区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


投稿 长 咨 询 : contact@epubit.com.cn 
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内 容 所 要 


本 书 以 塔 养 读者 以 计算 机 科学 家 一 样 的 思维 方式 来 理解 Python 语言 
编程 。 贯 穿 全 书 的 主体 是 如 何 思考 、 设 计 、 开 发 的 方法 ， 而 有 具体 的 编程 
语言 ， 只 是 提供 了 一 个 具体 场景 方便 介绍 的 媒介 。 


全 书 共 21 章 ， 详 细 介绍 Python 语言 编程 的 方方面面 。 本 书 从 最 基本 
的 编程 概念 开始 讲 起 ， 包 括 语言 的 语法 和 语义 ， 而 且 每 个 编程 概念 都 有 
清晰 的 定义 ， 引 领 读者 循序 渐进 地 学 习 变量 、 表 达 式 、 语 句 、 函 数 和 数 
据 结 构 。 书 中 还 探讨 了 如 何 处 理 文件 和 数据 库 ， 如 何 理解 对 象 、 方 法 和 
面 癌 对 象 编 程 ， 如 何 使 用 调试 技巧 来 修正 语法 错误 、 运 行 时 错误 和 语义 
错误 。 每 一 章 都 配 有 术语 表 和 练习 题 ， 方 便 读 者 巩固 所 学 的 知识 和 技 
巧 。 此 外 ， 每 一 章 都 抽出 一 节 来 讲解 如 何 调试 程序 。 作 者 针对 每 章 所 专 
注 的 语言 特性 ， 或 者 相关 的 开发 问 题 ， 总 结 了 调试 的 方方面面 。 











本 书 的 第 2 版 与 第 1 版 相 比 ， 做 了 很 多 更 新 ， 将 编程 语言 从 Python 2 
升级 成 Python 3， 并 修改 了 很 多 示例 和 练习 ， 增 加 了 新 的 章节 ， 更 全 面 


地 介绍 Python 语言 。 


这 是 一 本 实用 的 学 习 指 南 ， 适 合 没 有 Python 编程 经 验 的 程序 员 阅 
读 ， 也 适合 高 中 或 大 学 的 学 生 、Python 爱 好 者 及 需要 了 解 编程 基础 的 人 
阅读 。 对 于 第 一 次 接触 程序 设计 的 人 来 说 ， 是 一 本 不 可 多 得 的 佳作 。 





O’Reilly Media，Inc. 介 绍 


O’Reilly Media 通 过 图 书 、 杂 志 、 在 线 服务 、 调 查 研究 和 会 议 等 方 
式 传播 创新 知识 。 自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 
和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋 
势 一 一 通过 放大 那些 “细微 的 信号 ?来 刺激 社会 对 新 科技 的 应 用 。 作 为 技 
术 社 区 中 活跃 的 参与 者 ，O’Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 造 和 
发 扬 光 大 。 











O’Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”， 创建 第 一 个 商业 
网 站 (GNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运 
动 以 此 命名 ; 创 并 了 Make 灯 志 ， 从 而 成 为 DIY 革 命 的 主要 先锋 ， 公 司 一 
如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽 市 。O’Reilly 的 会 议和 峰会 集 
聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革 
命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，O'Reilly 现 在 还 将 先锋 专家 
的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服 务 或 者 

















面授 课程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信 
息 是 激发 创新 的 力量 。 
业界 评论 
“O’Reilly Radar ZA O ERR. ” 
Wired 





“O"Reilly 凭 借 一 系列 《真希 望 当 初 我 也 想到 了 ) 非凡 想法 建立 了 数 


百 万 美元 的 业务 。” 


Business 2.0 





“O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 
—CRN 
“一 本 O?Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 


Irish Times 











“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 
且 切 实地 按照 Yogi Berra 的 建议 去 做 了 :“ 如 果 你 在 路 上 遇 到 岔路 口 ， 走 
ek CAR) 。 回顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 
是 一 内 即 逝 的 机 会 ， 尽 管 大 路 也 不 错 。?” 





Linux Journal 
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本 书 的 奇特 历史 


1999 年 ， 我 正在 为 一 门 Java 的 编程 入 门 诬 程 备课 。 这 门 课 我 已 经 教 
过 3 个 学 期 ， 感 到 有 些 灰 心 。 谍 程 的 不 及 格 率 太 高 ， 即 使 是 那些 及 格 的 
学 生 ， 也 只 获得 了 很 低 的 成 就。 





我 发 现 问题 之 一 是 教材 。 它 们 太 厚 ， 有 太 多 见 余 的 细节 ， 而 针对 编 
程 撤 巧 的 高 阶 的 指导 却 很 不 足 。 而 且 学 生 们 都 有 “陷阱 效应 ”的 知 恼 : 开 
头 时 很 容易 ， 也 能 循序 渐进 ， 但 接着 在 第 5 章 左 右 ， 整 个 地 板 束 突然 陷 
沙 了 。 新 内 容 来 得 太 多 、 太 快 ， 以 至 于 我 必须 花费 一 学 期 剩 下 的 全 部 时 
间 来 帮助 他 们 拾 回 丢失 的 片段 。 














开课 前 两 周 ， 我 决定 自己 来 编写 教材 。 我 的 目标 有 以 下 几 个 。 


。 尽量 简短 。 学 生 读 10 页 书 ， 比 不 读 50 页 书 要 好 。 

。 注意 词汇 。 我 尝试 尽量 少 用 术语 ， 并 在 第 一 次 使 用 它们 时 做 好 定 
Ka 

。 循序 渐进 。 为 了 避免 陷阱 效应 ， 我 抽出 了 最 困难 的 课题 ， 并 把 它们 
划分 成 更 细 的 学 习 步 又 。 

。 专注 于 编程 ， 而 不 是 编程 语言 。 我 只 注意 包涵 了 Java 的 最 小 的 可 用 
子 集 ， 而 忽略 掉 其 他 。 








我 需要 一 个 标题 ， 所 以 心血 来 潮 选 择 了 “How to Think Like a 


Computer Scientist”. 


第 工 版 教材 很 粗糙 ， 但 确实 有 效 。 学 生 们 读 完 读本 ， 亿 得 了 足够 的 
基础 知识 ， 以 至 我 其 至 可 以 利用 课 共 时 间 和 他 们 一 起 讨论 更 难 、 更 有 趣 
的 话题 ， 并 且 《 最 重要 的 是 ) 可 以 让 学 生 们 有 足够 的 时 间 在 课堂 上 做 练 
Je 





我 将 这 本 书 按照 GNU 目 由 文档 许可 协议 (GNU Free Documentation 
License) 发 布 ， 让 用 户 可 以 复制 、 修 改 和 分 发 本 书 。 


接 下 来 发 生 了 最 酪 的 事情 。Jeff Elkner， 弗 吉 尼 亚 州 的 一 位 高 中 老 
师 ， 使 用 了 我 的 书 ， 并 且 将 其 翻译 成 Python 语言 的 版 本 。 他 寄 给 我 他 的 
翻译 副本 ， 于 是 我 有 了 一 次 很 奇特 的 经 历 一 一 通过 读 我 自己 的 书 来 学 习 
Python。 通 过 绿茶 出 版 社 (Green Tea Press) ， 在 2001 年 我 出 版 了 第 一 
个 Python 版 本 。 


2003 年 ， 我 开始 在 欧 林 学 院 (Olin College) 教学 ， 并 第 一 次 需要 教 
授 Python 语 言 。 和 Java 的 对 比 非常 惊人 。 学 生 们 困扰 更 少 ， 学 会 得 更 
多 ， 从 事 更 有 意思 的 项 目 ， 总 的 来 说 得 到 了 更 多 的 乐趣 。 








在 那 之 后 我 一 直 继 续 拓 展 这 本 书 的 内 容 ， 修 改 错误 ， 改 进 示例 ， 并 
增加 新 的 材料 、 尤 其 是 练习 。 


结果 束 产 生 了 本 书 ， 并 改 用 了 不 那么 宏伟 党 蛙 的 书 名 一 一 Think 
Python 。 部 分 改动 如 下 所 述 





。 我 在 每 章 的 结尾 添加 了 一 节 关 于 调试 的 说 明 。 这 些 章节 描述 寻找 和 
避免 bug 的 通用 技巧 ， 并 警示 Python 中 容易 出 错 的 误区 。 


。 我 增加 了 更 多 的 练习 ， 小 到 简短 的 理解 性 测试 ， 大 到 几 个 实际 工 
程 。 大 部 分 练习 都 附带 了 链接 ， 可 以 查看 我 的 解答 。 

。 我 添加 了 一 系列 案例 研究 一 一 较 长 的 示例 ， 包 括 练习 、 解 答 以 及 讨 

论 。 

我 扩展 了 关于 程序 开发 计划 和 基础 设计 模式 的 讨论 。 

我 增加 了 关于 调试 和 算法 分 析 的 章节。 





第 2 版 增加 了 如 下 几 个 新 特性 。 


全 书 内 容 和 辅助 代码 都 更 新 到 Python 3。 


增加 了 几 节 ， 以 及 更 多 关于 Web 的 细节 ， 以 帮助 初学 者 通过 浏览 占 
就 能 开始 运行 Python， 而 不 需要 过 早 地 面 对 安 装 Python 的 问题 。 





对 于 第 4 章 的 “turtle 模块 >， 我 把 实现 从 以 前 自己 开发 的 Swampy 
乌 翁 绘图 包 ， 改 为 使 用 更 标准 的 Python 模块 turtle ， 它 更 容易 安 
装 ， 功 能 也 更 强大 。 

增加 了 新 的 一 章 “Python 拾 珍 ”( 第 19 章 ) ， 介 绍 Python 提供 的 一 些 
并 不 必需 ,但 有 时 会 很 方便 的 特性 。 


我 希望 你 喜欢 这 本 书 ， 并 希望 它 至 少 能 提供 一 点 帮助 ， 助 你 学 会 像 
计算 机 科学 家 那样 编程 和 思考 。 


— Allen B. Downey 


欧 林 学 院 


本 书 排版 约定 


本 书 使 用 下 列 排 版 约定 。 


。 中 文 楷体 《英文 斜体 ) : 用 于 新 术语 、 文 件 名 和 文件 扩展 名 。 

。 黑体 字 : 表示 术语 表 中 定义 的 词汇 。 

等 宽 字 体 (constant width) : 用 于 程序 清单 ， 以 及 段落 中 间 的 

代码 元 素 ， 如 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 名 

或 关键 字 等 。 

加 粗 等 宽 字 体 〈 constant with bold) : 表示 命令 或 其 他 应 当 

由 用 户 键 入 的 文本 。 

。 等 宽 斜 体 字 ( constant width ) : 用 于 显示 需要 蔡 换 为 用 户 提 
供 的 值 或 由 环境 确定 的 值 的 文本 。 





代 公 示例 的 使 用 


补充 材料 〔 代 码 示例 、 练 习 等 ) 可 以 从 
http://www.greenteapress.com/thinkpython2/code 下 载 。 








本 书 的 目的 是 帮 你 完成 工作 。 一 般 来 说 ， 只 要 是 本 书 提供 的 示例 代 
码 ， 你 都 可 以 用 在 自己 的 程序 和 文档 中 。 如 果 你 不 是 要 复制 大 部 分 的 代 
码 ， 就 不 需要 联系 我 们 申请 授权 。 例 如 ， 写 一 个 程序 ， 里 面 使 用 了 本 书 
中 的 几 段 代码 ， 不 需要 申请 授权 。 但 销售 或 分 发 O'Reilly 书 籍 的 示例 光 
盘 则 需要 授权 。 回 答 问题 中 引用 本 书 内 容 或 示例 代码 ， 并 不 需要 申请 授 
权 ， 但 将 本 书 中 大 量 的 代码 引入 你 的 产品 文档 则 需要 授权 。 





在 引用 本 书 内 容 时 ， 我 们 并 不 强求 但 鼓励 你 注 明 出 处 。 引 用 通常 包 
括 书 名 、 作 者 、 出 版 社 和 ISBN。 例 如 : “Think Python, 2nd Edition by 


Allen B. Downey (O’Reilly). Copyright 2016 Allen Downey, 978-1-4919- 
3936-9”. 





如 果 你 觉得 自己 对 本 书 代 码 示 例 的 使 用 超出 了 上 述 授权 范围 ， 可 以 
随时 联系 我 们 : permissions@oreilly.com。 


联系 我 们 
请 将 关于 本 书 的 评论 和 问题 发 给 出 版 商 。 
美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 


Sebastopol, CA 95472 


中 国 ; 








北京 市 西城 区 西直门 南大 街 2 写成 馈 大 厦 C 座 807 室 (100035) 





奥 羔 利 技术 咨询 (北京 ) 有限 公司 





我 们 为 本 书 提供 了 专门 的 网 页 ， 上 面 有 勘误 表 、 示 例 ， 以 及 其 他 额 
外 的 信息 ， 可 以 通过 http://bit.ly/think-python_2E 访 问 该 网 页 。 


如 果 想 对 本 书 进行 评论 或 想 问 技术 问题 ， 请 将 邮件 发 到 


bookquestions@oreilly.com. 


想 了 解 更 多 关于 我 们 的 书籍 、 课 程 、 会 议 ， 以 及 新 闻 等 信息 ， 请 登 
录 我 们 的 网 站 : http://www.oreilly.com 。 


我 们 的 其 他 联系 方式 如 下 。 
Facebook: http://facebook.com/oreilly 
Twitter: http://twitter.com/oreillymedia 


YouTube: http://www.youtube.com/oreillymedia 


致谢 


非常 感谢 Jeff Elkner， 他 将 我 的 Java 书 翻译 成 Python， 这 使 我 我 开始 
了 这 个 项 目 ， 并 回 我 介绍 了 Python 语言 ， 结 果 Python 成 为 我 最 喜爱 的 编 


程 语 言 Fo 





还 要 感谢 Chris Meyers， 他 在 How to Think Like a Computer Scientist 
一 书 中 页 献 了 好 几 市 。 


感谢 自由 软件 基金 会 (Free Software Foundation) 开发 了 GNU 自 由 
文档 协议 ， 让 我 和 Jeff 以 及 Chris 的 合作 成 为 可 能 。 感 谢 创 用 
CC (Creative Commons) 开发 了 我 们 现在 使 用 的 协议 。 


感谢 Lulu， 人 负责 How to Think Like a Computer Scientist 的 编辑 。 


感谢 O’Reilly Media 负 责 Think Python 一 书 的 编辑 。 





感谢 所 有 参与 了 本 书 早 期 版 本 编写 的 学 生 ， 以 及 所 有 《下 面 列 出 


的 ) 贡献 者 提供 的 修订 和 建议 。 


页 献 者 列表 


在 最 近 几 年 中 ， 超 过 100 名 眼光 犀利 、 思 维 敏 捷 的 读者 给 我 寄 来 了 
建议 和 修订 。 他 们 对 这 个 项 目的 贡献 和 热情 ， 对 我 是 极 大 的 帮助 。 


如 有 果 你 有 建议 或 者 修订 意见 ， 请 发 邮件 到 
feedback@thinkpython.com。 如 果 我 根据 你 的 回馈 做 出 了 修改 ， 会 将 你 
加 入 贡献 者 列表 中 《除非 你 要 求 被 隐藏 ) 。 





如 果 你 给 出 错误 出 现 的 位 置 的 部 分 语句 ， 会 让 我 更 容易 搜索 。 页 码 
或 者 章节 编号 也 可 以 ， 但 并 不 那么 容易 处 理 。 谢 谢 ! 


Lloyd Hugh Allen 对 8.4 节 提出 了 修订 建议 。 

Yvon Boulianne 对 第 5 章 提 出 了 一 个 语义 错误 的 修订 建议 。 

Fred Bremmer 对 2.1 节 提出 了 一 个 修订 建议 。 

Jonah Cohen 编 写 了 Perl 脚 本 将 本 书 的 LaTeX 源 人 码 转 换 成 美丽 的 
HTML. 

Michael Conlon 提 出 了 第 2 章 的 一 个 语法 错误 ， 并 提出 第 1 章 的 格式 
改进 ， 并 且 他 开启 了 对 解释 器 的 技术 讨论 。 

Benoit Girard 寄 来 一 个 对 5.6 节 的 有 趣 的 修订 。 

Courtney Gleason 和 Katherine Smith 编写 了 horsebet .py ， 在 本 书 
的 早期 版 本 中 作为 一 个 案例 研究 。 他 们 的 程序 现在 可 以 在 网 站 上 找 
到 。 

Lee Harr 提 交 了 很 多 修订 建议 ， 我 们 没有 空间 在 这 里 一 一 列 出， 并 





且 他 确实 应 当 被 列 为 本 书 的 一 位 主要 编辑 。 

James Kaylin 是 一 名 使 用 本 书 的 学 生 。 他 提交 了 许多 修订 。 

David Kershaw 修正 了 3.10 节 中 错误 的 catTwice 函数 。 

Eddie Lam 提 出 了 第 1 章 、 第 2 人 章 和 第 3 章 的 很 多 修订 建议 ， 他 也 修正 
了 Makefie， 这 样 第 一 次 运行 时 会 自动 建立 索引 。 他 也 帮助 我 们 设 
置 了 一 个 版 本 管理 方案 。 

Man-Yong Lee 寄 来 了 对 2.4 节 中 的 示例 代码 的 修订 。 

David Mayo 指 出 第 1 章 中 的 单词 “unconsciously” 需 要 被 修改 

为 “subconsciously”。 

Chris McAloon 寄 来 了 对 3.9 节 和 3.10 节 的 一 些 修订 。 

Matthew J. Moelter 是 本 书 的 长 期 贡献 者 ， 提 出 了 很 多 修订 建议 。 
Simon Dicon Montford 报 告 了 第 3 章 中 缺失 的 函数 定义 以 及 几 个 错 别 
字 。 他 也 发 现 了 第 13 章 中 的 increment 函数 的 错误 。 

John Ouzts 修正 了 第 3 章 中 “返回 值 ? 的 定义 。 

Kevin Parks 对 关于 本 书 如 何 分 布 提出 了 有 价值 的 评论 和 建议 。 
David Pool 发 来 了 第 1 章 中 术语 表 中 的 错别字 ， 以 及 鼓励 的 赞美 之 


Michael Schmitt 寄 来 了 关于 文件 和 有 异常 的 章节 的 修订 建议 。 

Robin Shaw 指 出 了 13.1 节 中 的 一 个 错误 ，printTime 函 数 在 一 个 示例 
中 没有 定义 就 使 用 了 。 

Paul Sleigh 在 第 7 章 中 找到 一 个 错误 ， 并 发 现 了 Jonah Cohen 用 于 生 
成 HTML 的 Perl 脚 本 的 bug。 

Craig T. Snydal 在 德 鲁 大 学 (Drew University) 的 一 门 课 上 试验 这 个 
课本 ， 他 提出 了 好 几 个 有 价值 的 建议 和 修订 。 

Ian Thomas 和 他 的 学 生 们 使 用 这 本 书 作为 编程 课程 的 教材 。 他 们 第 























一 个 答 试 使 用 本 书后 半 部 分 的 人 章节， 并 且 提 出 了 许多 勘误 和 建议 。 
Keith Verheyden 发 来 了 第 3 章 的 一 个 修正 。 

Peter Winstanley 让 我 们 知道 了 第 3 章 的 拉丁 文中 一 个 长 期 存在 的 错 
误 。 

Chris Wrobel 修 正 了 文件 WO 和 异常 一 章 的 代码 错误 。 

Moshe Zadka 对 本 书 有 不 可 估量 的 贡献 。 他 编号 了 关于 字典 的 一 章 
的 第 1 版 草稿 ， 并 在 本 书 的 早期 阶段 持续 提供 指导 。 

Christoph Zwerschke 发 来 了 几 个 勘误 和 教学 法 的 建议 ， 并 解释 了 
gleich 和 selbe 的 区 别 。 

James Mayer 发 送 给 我 们 非常 多 的 拼写 错误 ， 包 括 贡 献 者 列表 中 的 
两 个 错误 。 

Hayden McAfee 发 现 了 两 个 示例 之 间 潜 在 的 冲突 。 

Angel Arnal 是 翻译 本 书 的 西班牙 语 版 本 的 国际 团队 的 一 员 。 他 也 发 
现 了 英文 版 中 的 几 个 错误 。 
Tauhidul Hoque 和 Lex Berezhny 创 建 了 第 1 章 中 的 图 表 ， 并 改进 了 很 
多 其 他 图 表 。 

Dr. Michele Alzetta 发 现 了 第 8 章 中 的 一 个 错误 ， 并 发 来 了 一 些 有 趣 
的 教学 法 评论 ， 以 及 关于 斐 波 那 旭 数 列 和 Old Maid 的 建议 。 

Andy Mitchell 友 现 了 第 1 章 中 的 一 个 录入 错误 ， 以 及 第 2 章 中 一 个 错 
误 的 示例 。 
Kalin Harvey 对 第 7 章 的 一 个 说 明 提供 了 建议 ， 并 发 现 了 几 个 录入 错 
误 。 

Christopher P. Smith 发 现 了 几 个 录入 错误 ， 并 帮助 我 们 更 新 本 书 到 
Python 2.2。 

David Hutchins 发 现 了 前 言 中 的 一 个 错别字 。 











Gregor Lingl 在 奥地利 维也纳 的 一 个 高 中 教授 Python。 他 正在 翻译 本 
书 的 德 文 版 ， 并 发 现 了 第 5 章 中 的 几 个 错误 。 

Julie Peters 发 现 了 前 言 中 的 一 个 错别字 。 

Florin Oprina 发 来 一 个 makeTime 的 改进 ，printTime 的 一 个 修 
正 ， 以 及 发 现 的 一 个 重要 的 录入 错误 。 

D. J. Webre 对 第 3 章 的 一 个 说 明 提 出 了 建议 。 

Ken 在 第 8、9、11 章 中 发 现 了 好 几 个 错误 。 

Ivo Wever 在 第 5 章 发 现 一 个 录入 错误 ， 并 对 第 3 章 中 的 一 个 说 明 提 
出 了 建议 。 

Curtis Yanko 对 第 2 草 中 的 一 个 描述 提出 了 建议 。 

Ben Logan 发 来 许多 发 现 的 录入 错误 ， 并 发 现 了 翻译 HITML 的 问 
题 。 

Jason Armstrong 发 现 了 第 2 章 中 一 个 漏 掉 的 词 。 

Louis Cordier 发 现 了 第 16 蔓 中 有 一 个 代码 和 文本 不 一 致 的 地 方 。 
Brian Cain 在 第 2 章 和 第 3 章 中 提出 了 几 个 质 述 的 改进 建议 。 

Rob Black 发 来 了 许多 勘误 ， 包 括 一 些 针 对 Python 2.2 的 修改 。 
巴黎 中 央 理 工大 学 的 Jean-Philippe Rey 发 来 了 一 些 补丁 ， 包 括 对 
Python 2.2 的 更 新 ， 以 及 其 他 一 些 细心 的 改进 。 

乔治 华盛顿 大 学 的 Jason Mader 提 供 了 许多 有 用 的 建议 和 改正 。 

Jan Gundtofte-Bruun 提 醒 我 们 “a error” 应 改 为 “an error”。 

Abel David 和 Alexis Dinno 提醒 我 们 “matrix” 的 复数 形式 

是 “matrices” 而 不 是 “matrixes”。 这 个 错误 在 书 中 已 经 存在 了 多 年 ， 
但 两 个 姓名 以 同样 的 字母 开头 的 读者 同一 天 报告 了 它 。 真 的 很 奇 
PE, 


Charles Thayer KRA IR E — HB AZ aS, FERATA 








清 “ 形 参 ”" 和 “ 实 参 ”的 使 用 。 
Roger Sperberg 指 出 了 第 3 章 的 一 个 逻辑 错误 。 

Sam Bul 指 出 了 第 2 章 中 一 段 令 人 困惑 的 描述 。 
Andrew Cheung 指 出 了 两 处 * 定 义 前 先 使 用 ”的 错误 。 
C.Corey Capel 发 现 缺 了 单词 ， 以 及 第 4 章 的 一 个 录入 错误 。 
Alessandra 帮助 我 们 理 清 了 一 些 关 于 Turtle 的 困惑 。 
Wim Champagne 在 字典 示例 中 发 现 一 个 错误 。 
Douglas Wright 在 弧度 计算 中 发 现 了 一 个 除法 同 下 取 整 的 错误 。 
Jared Spindor 发 现 了 一 处 句 尾 的 无 用 词 。 
Lin Peiheng 发 来 了 许多 很 有 用 的 建议 。 
Ray Hagtvedt 发 来 了 两 处 错误 和 一 处 不 是 那么 错 的 错误 。 
Torsten Hiibsch 指 出 Sawmpy 中 的 一 处 不 一 致 。 
Inga Petuhhov 修 正 了 第 14 章 中 的 一 个 示例 。 
Arne Babenhauserheide 发 来 了 几 个 有 用 的 勘误 。 
Mark E. Casida 非 常 善于 发 现 重 复 的 单词 。 

Scott Tyler 盾 上 了 一 个 缺失 的 “that”， 并 发 来 了 一 堆 勤 误 。 
Gordon Shephard 发 来 了 几 个 勤 误 ， 每 个 都 用 单独 的 邮件 。 
Andrew Turmner 发 现 了 第 8 章 中 的 一 个 错误 。 
Adam Hobart 修 正 了 一 个 在 弧度 计算 中 除法 同 下 取 整 的 错误 。 
Daryl Hammond 和 Sarah Zimmerman 指 出 我 过 早 提 出 了 math.pi 。 
并 且 Zim 发 现 了 一 个 录入 错误 。 

George Sass 在 调试 章节 中 发 现 了 一 个 bug。 
Brian Bingham 建 议 了 练习 11-10。 
Leah Engelbert-Fenton 指 出 我 用 tuple 作为 变量 名 称 ， 这 恰恰 违 








了 我 日 己 的 建议 。 然 后 他 发 现 了 一 堆 录 入 错误 以 及 一 个 “定义 前 先 


使 用 ”。 

Joe Funke 发 现 了 一 个 录入 错误 。 

Chao-chao Chen 在 非 波 那 契 示 例 中 发 现 了 一 个 不 一 致 处 。 

Jeff Paine 知 道 space 和 spam 的 区 别 。 

Lubos Pintes 发 来 一 个 录入 错误 。 

Gregg Lind 和 Abigail Heithoff 建 议 了 练习 14-4。 

Max Hailperin 发 来 了 许多 勘误 和 建议 。Max 是 非 几 的 Concrete 
Abstractions (Course Technology, 1998) 一 书 的 作者 之 一 。 在 读 完 
本 书 之 后 你 可 能 会 想 要 读 那 本 书 。 

Chotipat Pornavalai 在 一 个 错误 信息 中 发 现 了 一 个 错误 。 

Stanislaw Antol 寄 来 了 一 个 很 有 用 的 建议 列表 。 

Eric Pashman 对 第 4 章 到 第 11 章 发 来 了 许多 勘误 。 

Miguel Azevedo 发 现 了 一 些 录入 错误 。 

Jianhua Liu 发 来 了 一 长 列 勘 误 。 

Nick King 发 现 了 一 个 缺失 单词 。 

Martin Zuther 发 来 了 一 长 列 建议 。 

Adam Zimmerman 发 现 了 我 举例 的 一 个 “实例 ”中 的 不 一 致 处 ， 以 及 
其 他 一 些 错误 。 

Ratnakar Tiwari 建 议 加 一 个 脚注 说 明 什么 是 “退化 ”三 角形 。 

Anurag Goel 提 出 了 is_abecedarian 的 另 一 个 解答 ， 并 发 来 其 他 一 
些 勘误 。 他 还 知道 如 何 拼写 Jane Austen. 

Kelli Kratzer 发 现 了 一 个 录入 错误 。 

Mark Griffiths 指 出 了 第 3 章 中 的 一 个 令 人 困惑 的 示例 。 

Roydan Ongie 发 现 了 我 的 牛顿 方法 的 一 个 错误 。 

Patryk Wolowiec 帮 我 解决 了 一 个 HTML 版 本 的 问题 。 

















Mark Chonofsky 告 诉 我 Python 3 中 的 新 关键 字 。 

Russell Coleman 帮 我 修正 了 几何 错误 。 

Wei Huang 发 现 了 几 处 录入 错误 。 

Karen Barber 发 现 了 本 书 中 最 古老 的 录入 错误 。 

Nam Nguyen 发 现 了 一 个 录入 错误 ， 并 指出 我 使 用 了 装饰 器 模式 但 
并 没有 用 它 的 名 字 。 

Stéphane Morin 发 来 了 一 些 建 议和 勘误 。 

Paul Stoop 修 改 了 一 个 uses_only 中 的 录入 错误 。 

Eric Bronner 指 出 了 关于 操作 符 顺 序 的 讨论 中 的 一 个 困惑 之 处 。 
Alexandros Gezerlis 提 交 的 建议 的 数量 和 质量 都 设置 了 一 个 新 的 标 
准 。 我 们 非常 感谢 他 ! 

Gray Thomas 知 道 哪 边 是 左 哪 边 是 右 。 

Giovanni Escobar Sosa 发 来 一 长 列 的 勘误 和 建议 。 

Alix Etienne 修 正 了 一 个 URL。 

Kuang He 发 现 一 个 录入 错误 。 

Daniel Neilson 修 正 了 一 个 关于 操作 符 顺 序 的 错误 。 

Will McGinnis 指 出 polyline 在 两 个 地 方 定义 的 不 同 。 

Swarup Sahoo 发 现 了 一 个 缺失 的 分 号 。 

Frank Hecker 指 出 一 个 练习 不 细致， 并 发 现 了 几 个 坏 链 接 。 
Animesh B 帮 助 我 清理 了 一 个 令 人 困惑 的 示例 。 

Martin Caspersen 发 现 了 两 处 取 整 错误 。 

Gregor Ulm 发 来 一 些 勘 误 和 建议 。 

Dimitrios Tsirigkas 建 议 我 更 清晰 地 描述 一 个 练习 。 

Carlos Tafur 发 送 了 一 整 页 勘误 和 建议 。 

Martin Nordsletten 在 一 个 练习 解答 中 找到 了 一 个 bug。 











Lars O. D. Christensen 找 到 了 一 个 失效 的 引用 。 

Victor Simeone 找到 了 一 个 录入 错误 。 

Sven Hoexter 指 出 一 个 叫 作 input 的 变量 名 履 靖 了 内 置 函 数 名 。 
Viet Le 找到 了 一 个 录入 错误 。 

Stephen Gregory 指 出 Python 3 中 cmp 的 问题 。 

Matthew Shultz 告 知 我 一 个 失效 链接 。 

Lokesh Kumar Makani 告 知 我 几 个 失效 链接 ， 以 及 出 错 消息 的 改 
pe 

Ishwar Bhat 修 正 了 我 对 费 马 大 定理 的 描述 。 

Brian McGhie 建 议 了 一 个 更 清晰 的 前 述 。 

Andrea Zanella 将 本 书 翻译 成 意大利 语 ， 并 发 送 了 一 些 勘 误 。 
非常 感谢 Melissa Lewis 和 Luciano Ramalho 出 色 的 评论 ， 以 及 对 本 书 
第 2 版 的 建议 。 

感谢 PythonAnywhere 的 Harry Percival 帮 助人 们 在 浏览 器 中 运行 
Python 。 

Xavier Van Aubel 对 第 2 版 做 出 了 几 个 有 用 的 修正 。 


本 书 的 目标 是 教会 你 像 计 算 机 科学 家 一 样品 考 。 这 种 思考 方式 综合 
了 数学 、 工 程 学 以 及 上 自然 科学 的 一 些 最 优秀 的 特性 。 计 算 机 科学 家 与 数 
学 家 类 似 ， 他 们 使 用 形式 语言 来 描述 理念 〈 特 别 是 计算 ) ;与 工程 师 类 
似 ， 他 们 设计 产品 ， 将 元 件 组 闭 成 系统 ， 对 不 同 的 方案 进行 评 佑 选择; 
与 自然 科学 家 类 似 ， 他 们 观察 复杂 系统 的 行为 ， 构 建 科学 假说 ， 并 检验 
其 预测 。 


作为 计算 机 科学 家 ， 节 重要 的 技能 驶 是 问题 求解 。 问 题 求 解 是 发 
现 问题 、 创 造 性 地 思考 解决 方案 以 及 清晰 准确 地 表达 解决 方 采 的 能 
实践 证 明 ， 学 习 编 程 的 过 程 ， 正 是 训练 问题 求解 能 力 的 绝 佳 机 会 。 这 也 
是 本 章 标题 用 “程序 之 道 ” 的 原因 。 





一 方面 ， 你 将 学 会 编程 ， 其 本 喘 就 是 一 个 非常 有 用 的 技能 ， 另 一 方 
面 ， 你 可 以 使 用 编程 作为 工具 ， 去 达到 更 高 的 目标 。 随 着 本 书 的 深入 ， 
那个 目标 会 逐渐 明晰 。 





11 ftAREE 





程序 是 指 一 组 定义 如 何 进行 计算 的 指令 的 集合 。 这 种 计算 可 能 是 
数学 计算 ， 如 解 方程 组 或 者 得 找 多 项 式 的 根 ， 也 可 以 是 符号 运算 ， 如 搜 
索 和 蔡 换 文档 中 的 文本 ， 或 者 图 形 相 关 的 操作 ， 如 处 理 图 像 或 播放 视 
频 。 








在 不 同 的 编程 语言 中 ， 程 序 的 细节 有 所 不 同 ， 但 几乎 所 有 编程 语言 
中 都 会 出 现 以 下 几 关 基本 指令 。 





。 输入: 从 键盘 、 文 件 或 者 其 他 设备 中 获取 数据 。 

。 输出 : 将 数据 显示 到 屏幕 ， 保 存 到 文件 中 ， 或 者 发 送 到 网 络 上 
ay 

。 数学 : 进行 基本 数学 操作 ， 如 加 法 或 乘法 。 

条 件 执行 ; 检 碍 茶 种 条 件 的 状态 ， 并 执行 相应 的 代码 。 

重复 : 重复 执行 茶 种 动作 ， 往 往 在 重复 中 有 一 些 变 化 。 























信 不 信 由 你 ， 这 兰 不 多 就 是 全 部 了 。 你 所 遇 到 过 的 所 有 程序 ， 无 论 
多 么 复业 ， 孝 是 由 类 似 上 面 的 这 些 指令 组 成 的 。 所 以 我 们 可 以 把 编程 看 
作 一 个 将 大 而 复杂 的 任务 分 解 为 更 小 的 子 任务 的 过 程 ， 不 断 分 解 ， 直 到 
任务 简单 到 足以 由 上 面 的 这 些 基 本 指令 组 合 完成 。 


1.2 ”运行 Python 








Python 入 门 的 挑战 之 一 在 于 你 可 能 需要 目 己 在 电脑 上 安装 Python 及 
相关 软件 。 如 果 你 熟悉 目 己 的 操作 系统 ， 而 且 习惯 于 命令 行 界面 ， 那 么 
安 闭 Python 不 是 什么 问题 。 但 对 于 初学 者 来 说 ， 同 时 学 习 编 程 和 系统 管 
理 命令 两 件 事 ， 有 时 候 是 非常 痛 和 否 的 。 














为 了 避免 这 个 问题 ， 我 推荐 你 开始 先 在 浏览 器 中 运行 Python， 等 熟 
悉 了 Python 语言 之 后 ， 我 再 同 你 介绍 如 何在 电脑 上 安装 Python。 





用 于 运行 Python 的 网 站 有 不 少 。 如 果 你 已 经 找到 一 个 喜欢 的 ， 耽 可 
以 直接 去 用 。 如 果 没 有 ， 我 推荐 PythonAnywhere。 我 在 


http:/Wtinyurl.comy/thinkpython2e 上 提供 了 详细 的 入 门 指导 。 


有 两 个 版 本 的 Python， 分 别 为 Python 2 和 Python 3。 它 们 很 类 似 ， 所 
以 如 果 你 学 会 了 一 个 版 本 ， 也 能 很 容易 地 切换 到 男 一 个 版 本 。 实 际 上 ， 
作为 初学 者 ， 你 会 遇 到 的 两 者 之 间 的 区 别 非 常 少 。 本 书 是 针对 Python 3 
编写 的 ， 但 我 也 会 给 出 一 些 关 于 Python 2 的 注意 事项 。 


Python 解释 器 是 一 个 读 取 并 执行 Python 代码 的 程序 。 根 据 所 在 环境 
的 不 同 ， 你 可 能 需要 扣 击 程序 图 标 ， 或 者 在 命令 行 中 键入 python 命令 
来 启动 解释 右 。 当 它 启 动 以 后 ， 可 以 看 到 如 下 输出 : 





Python 3.4.0 (default, Jun 19 2015, 14:20:21) 
[GCC 4.8.2] on linux 
Type "help", "copyright", "credits" or "license" for more information. 


>>> 





前 3 行文 本 包含 了 解释 器 和 所 运行 的 操作 系统 的 信息 ， 所 以 可 能 与 
你 看 到 的 有 些 区 别 。 但 你 应 当 检 查 版 本 写 是 否 以 3 开头 (本 例 所 示 的 
是 3.4.6 ) ， 表 示 你 使 用 的 是 Python 3 的 解释 器 。 如 果 版 本 号 以 2 开头 ， 
那么 “你 肯定 猜 到 了 ) Farz Python 2. 








最 后 一 行 是 一 个 提示 符 ， 表 明 解 释 器 已 经 准备 好 ， 等 待 你 键入 代 
码 。 如 果 你 键入 一 行 代 码 并 按 下 Enter 键 ， 解 释 需 会 显示 结 采 : 


>>> 1+1 
2 


| | 
EE ie 
依照 传统 ， 用 新 语言 编写 的 第 一 个 程序 叫 “Hello, World!”， 因 为 这 


个 程序 所 做 的 事情 就 是 只 显示 “Hello, World!”。 在 Python 中 ， 它 是 这 个 
样子 : 








>>> print('Hello, World!') 





这 是 print 语句 的 一 个 示例 。print 并 不 会 真 往 纸 上 打 印 文字 ， 
而 是 在 屏幕 上 显示 结果 。 在 这 个 例子 中 ， 输 出 的 结果 是 : 





Hello, World! 











程序 中 的 引号 表示 要 显示 的 文本 的 开始 和 结束 ， 在 输出 结果 中 它们 
并 不 显示 。 


括号 表示 print 是 一 个 函数 。 我 们 将 在 第 3 章 中 讨论 函数 。 


在 Python 2 中 ，print 语句 略 有 不 同 。 它 不 是 一 个 函数 ， 所 以 不 使 
用 括号 : 


>>> print 'Hello, World!' 


这 个 区 别 的 意义 在 后 面 会 慢 慢 显 现 ， 但 现在 只 需要 知晓 就 足够 了 。 
1.4 算术 操作 符 


介绍 完 “Hello, World” 之 后 ， 接 下 来 是 算术 操作 。Python 提 供 了 操作 
符 ， 即 像 加 号 或 减 号 这 样 的 用 来 表达 计算 操作 的 特殊 符号 。 








操作 符 +、- 和 * 分 别 表示 进行 加 法 、 减 法 和 乘法 运算 ， 如 下 面 示例 
所 示 : 





操作 符 / 表 示 除 法 运算 : 


>>> 84 / 2 
42.0 


这 里 你 可 能 会 奇怪 为 什么 结果 是 42 0 而 不 是 42 。 我 会 在 下 一 节 解 


最 后 ， 操 作 符 *#* 表示 进行 指数 运算 。 也 就 是 说 ， 会 把 一 个 数 按 指 
数 进行 乘 方 : 


>>> 6**2 + 6 
42 








在 其 他 一 些 语言 中 ， 指 数 操作 用 ^ 符号 表示 ， 但 在 Python 中 ^ 这 个 
符号 已 经 用 来 表示 二 进 制 按 位 运算 XOR 了 。 如 果 你 不 熟悉 按 位 运算 ， 结 
果 可 能 会 让 你 感到 奇怪 : 


>>> 6 ^ 2 
4 


本 书 我 不 会 讨论 按 位 操作 符 ， 但 读者 可 以 在 
http://wiki.python.org/moin/BitwiseOperator 上 阅读 相关 文档 。 


15 ” 值 和 类 型 





值 (value) 是 程序 操作 的 最 基本 的 东西 ， 如 一 个 字母 或 者 数字 。 
前 面 我 们 见 过 一 些 值 ， 如 2 、42.6 以 及 'Hello, World!'。 


这 些 值 属于 不 同 的 类 型 (type) : 2 是 整 型 (integer) 的 ，42.6 
是 浮 点 型 (floating-point) 的 ， 而 'Hello，World!' 是 字符 串 
(string〉 类 型 的 ， 这 么 称呼 是 因为 它 是 由 一 堆 字 母 “ 串 连 ” 起 来 的 。 


如 果 不 确认 一 个 值 的 类 型 ， 解 释 器 可 以 告诉 你 : 


>>> type(2) 

<class ‘int'> 

>>> type(42.0) 

<class 'float'> 

>>> type('Hello, World!') 


<type ‘str'> 








在 这 些 结果 中 ， 单 词 “class”( 类 ) 被 用 于 某 一 类 型 中 ， 这 是 一 种 值 


不 足 为 奇 ， 整 数 属于 "int' 类 型 ,字符 串 属于 'str' 类 型 ， 而 浮 点 
数 属于 'float' 类 型 。 





那么 '2" 和 "42.86' 这 样 的 值 呢 ? 它们 看 起 来 像 是 数字 ， 但 又 使 用 
字符 串 第 用 的 引号 括 起 来 : 


>>> type('2') 
<type 'str'> 
>>> type('42.0') 
<type ‘str'> 





PS AY 


它们 是 字符 串 。 


当 输 入 一 个 很 大 的 数字 时 ， 你 可 能 会 忍 不 住 想 在 数字 中 间 加 上 去 
=, W1, 000,000 这 样 。 在 Python 中 这 并 不 是 合法 的 整数 ， 但 它 凑巧 
又 是 一 个 合法 的 表达 式 : 


-> 


>>> 1,000,000 
(1, ©, ©) 





当然 ， 这 和 我 们 预期 的 完全 不 同 ! Python 把 1,666,666 解释 成 一 个 
用 运 号 分 隔 的 整数 序列 。 关 于 这 种 序列 在 本 书后 面 可 以 学 到 更 多 和 内容 。 





16 形式 语言 和 目 然 语言 


目 然 语言 是 指 和 人们 所 说 的 语言 ， 如 瑞 语 、 西 班 牙 语 和 法 语 。 它 们 
不 是 由 人 设计 而 来 的 (虽然 人 们 会 尝试 加 以 语法 限制 ) ， 而 是 自然 演化 
而 来 的 。 








形式 语言 则 是 人 们 为 了 特殊 用 途 设计 的 语言 。 例 如 ， 数 学 上 使 用 
的 符号 体系 是 一 种 特别 擅 于 表示 数字 和 符号 之 间 关 系 的 形式 语言 ;化 学 
家 则 使 用 号 一 种 形式 语言 来 表示 分 子 的 化 学 结构 。 而 最 重要 的 是 : 














编程 语言 是 人 们 为 了 表达 计算 过 程 而 设计 出 来 的 形式 语言 。 





形式 语言 倾向 于 对 语法 做 出 严格 的 限制 。 例 如 ，3 + 3 = 6 是 语法 正 
确 的 数学 表达 式 ， 但 3+ = 3$6 则 不 是 。H 0 是 语法 正确 的 化 学 方程 式 ， 
而 , Zz 则 不 是 。 





语法 规则 有 两 种 ， 分 别 适 用 于 记号 (token) 和 结构 (structure) 。 
记号 是 语言 的 基本 元 素 ， 如 词 、 数 字 和 化 学 元 素 。3+ = 3$6 的 一 个 问题 
就 是 $ 在 数学 表达 式 中 (人 至少 就 我 所 知 ) 不 是 合法 记号 。 相 似 地 ，, Zz 不 








合法 是 因为 并 不 存在 缩写 为 Zz 的 化 学 元 系 。 


第 二 种 语法 规则 指定 记号 所 组 合 的 方式 。 数 学 等 式 3+ = 3 不 合法 ， 
因为 虽然 + 和 = 是 合法 记号 ， 但 不 能 将 它们 连续 放置 。 相 似 地 ， 在 化 学 表 
达 式 里 ， 下 标 数字 应 该 出 现在 元 素 名 称 之 后 ， 而 不 是 之 前 。 





“This is @ well-structured Engli$h sentence with invalid t*kens in it.” 


一 个 结构 恨 好 ， 但 包含 非法 记号 的 英语 语句 。“This sentence all valid 
tokens has, but invalid structure with.” 这 人 句 话 所 有 的 记号 都 合法 ， 但 是 语 
句 结构 不 合法 。 








当 你 阅读 英语 的 句子 或 形式 语言 的 语句 时 ， 需 要 章 清 句子 的 结构 是 
什么 《虽然 在 目 然 语言 中 这 个 过 程 是 下 意识 完成 的 ) 。 这 个 过 程 称 为 语 
法 分 析 。 














虽然 形 陈 语言 和 目 然 语言 有 很 多 共同 的 特点 一 记号、 结构 、 语 法 
以 及 语义 ， 但 它们 也 有 一 些 区 别 。 








eK ME: 自然 语言 充满 了 卜 义 ， 人 们 通过 上 下 文 线索 和 其 他 信息 
来 处 理 这 些 歧 义 。 形 式 语 言 通 常设 计 为 几乎 或 者 完全 没有 歧义 ， 即 
不 论 上 下 文 环境 如 何 ， 任 何 表 达 式 都 只 有 一 个 含义 。 

o TURE: 为 了 弥补 歧义 ， 减少 误解 ， 目 然 语言 采用 大 量 的 见 余 。 
因此 ， 自 然 语 言 往 往 很 吧 嗪 。 形 式 语 言 则 相对 不 那么 元 余 ， 更 加 简 
o 

。 FEE: 自然 语言 充满 了 习惯 用 语 和 比喻 。 例 如 ， 有 人 说 , “硬币 
掉 了 ”(The penny dropped H! ) ， 并 不 一 定 是 硬币 ， 也 不 一 定 是 有 
什么 掉 了 。 形 式 语 言 则 严格 按照 它 的 字面 意思 表达 含义 。 

















因为 我 们 都 说 着 目 然 语 言 长 大 ， 有 时 候 很 难 适 应 形式 语言 。 在 菏 种 
意义 上 ， 形 式 语言 和 自然 语言 的 区 别 与 诗词 和 散文 的 区 别 类 似 ， 而 且 程 
度 更 甚 。 








。 诗词 : 字 词 的 使 用 ， 既 考虑 它们 的 音韵 ， 也 考 夸 到 它们 的 意义 ， 
而 整 首 许 合 起 来 表达 某 种 意境 或 情绪 反应 。 牙 义 不 仅 常见 ， 而 且 禹 
常 是 刻意 为 之 。 

。 散文 字 词 的 意义 更 加 重要 ， 而 且 句子 的 结构 也 提供 更 多 的 意 
Mo BOC HF EA aT, (EVRA AZ KX 

。 程序， 计算 机 程序 的 意义 不 含 歧义 ， 直 接 如 字面 所 指 。 完 全 可 以 
通过 它 的 记号 和 结构 理解 其 意义 。 























形式 语言 的 密度 远 远大 于 目 然 语言 ， 所 以 阅读 起 来 需要 花费 更 多 的 
时 间 。 还 有 ， 结 构 非常 重要 ， 所 以 直接 自 顶 向 下 、 从 左 至 右 的 阅读 顺序 
并 不 一 定 是 最 好 的 。 相 反 ， 要 试 着 学 会 在 头脑 中 解析 程序 ， 辨 别 出 记号 
并 解析 出 结构 。 最 后 ， 细 节 很 重要 。 在 自然 语言 中 常常 可 以 忽略 的 小 错 
误 ， 如 拼写 错误 或 者 标点 符号 错误 ， 在 形式 语言 中 往往 会 造成 很 大 的 关 


别 。 





1.7 调试 








程序 是 很 容易 出 错 的 。 因 为 某 种 古怪 的 原因 ， 程 序 错误 被 称 为 bug 
， 而 碍 捕 bug 的 过 程 称 为 调试 (debugging) 。 

一 个 程序 中 可 能 出 现 3 种 类 型 的 错误 : 语法 错误 、 运 行 时 错误 和 语 
义 错误 。 对 它们 加 以 区 分 ， 可 以 更 快 地 找到 错误 。 


编程 ， 特 别 是 调试 ， 有 时 候 会 引发 强烈 的 情绪 。 如 果 你 挣扎 于 一 个 
困难 的 bpug， 可 能 会 感觉 到 慎 奴 、 泪 丧 以 及 守 迫 。 


有 证 据 表 明 ， 人 们 会 像 对 待人 一 样 对 竺 电脑。 当 电 脑 民 好 完成 工作 
时 ， 我 们 会 把 它们 当 作 队友 ， 而 当 它 们 难以 控制 、 粗 骏 无 礼 的 时 候 ， 我 
们 会 按照 对 竺 那些 粗 骏 固执 的 人 一 样 对 竺 它们 〈The Media Equation: 
How People Treat Computers, Television, and New Media Like Real People 
and Places ，Reeves 和 Nass 闭 ) 。 


对 这 些 反应 行为 有 所 准备 ， 可 能 会 帮助 你 更 好 地 对 等 电脑 。 一 种 方 


法 是 把 它 当 作 你 的 雇员 ， 它 有 一 定 的 长 处 ， 如 速度 和 精度 ， 也 有 特定 的 
弱点 ， 如 没有 同情 心 和 无 法 顾全 大 局 。 











你 的 任务 是 做 一 个 好 经 理 : 设法 扬长 避 短 ， 并 找到 方法 控制 你 的 情 
绪 去 面 对 问 题 ， 而 不 是 让 你 的 反应 影响 工作 效率 。 


之 外 还 有 很 多 用 途 。 每 章 的 结尾 处 都 有 一 节 类 似 于 本 节 的 关于 调试 技巧 


学 习 调 试 可 能 会 市 来 挫折 感 ， 但 它 是 一 个 有 价值 的 技能 ， 并 在 编程 
的 讨论 。 希 望 它们 能 带 来 帮助 ! 
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问题 求解 (problem solving) : 总 结 问 题 、 寻 找 解 决 方案 以 及 表达 
解决 方案 的 过 程 。 


高 级 语言 (high-level language) : 设计 来 方便 人 们 读 写 的 编程 语 
言 ， 如 Python 。 


低级 语言 〈low-level language) : 设计 来 方便 计算 机 执行 的 编程 语 
言 ， 也 被 称 为 “机 器 语言 ”或 “汇编 语言 ”。 

可 移植 性 (portability〉: 程序 的 一 种 属性 : 可 以 在 多 种 类 型 的 计 
算 机 上 运行 。 

解释 器 (interpreter) : 一 个 读 取 其 他 程序 并 执行 其 内 容 的 程序 。 

提示 符 (prompt) : 解释 器 显示 的 文字 ， 提 示 用 户 已 经 准备 好 接收 
用 户 的 输入 。 

程序 (program) : 一 系列 代码 指令 的 集合 ， 指 定 一 种 运算 。 

print 语 句 (print statement) : 一 个 指令 ， 可 以 通知 Python 解 释 器 在 


屏幕 上 显示 一 个 值 。 





操作 符 Coperator) : 一 种 特殊 符号 ， 用 来 表达 加 法 、 乘 法 或 字符 
串 拼 接 等 简单 运算 。 

值 (value) : 程序 操作 的 数据 基本 单位 ， 如 一 个 数字 或 一 个 字符 
FB 

类 型 (type) : 值 的 类 别 。 到 目前 为 止 我 们 已 经 见 过 的 类 型 有 整数 
(int) 、 浮 点 数 (float ) 和 字符 串 (str ) 。 


整 型 (integer) : 用 来 表示 整数 的 类 型 。 


FRÆ 〈floating-point) : 用 来 表示 带 小 数 部 分 的 数 的 类 型 。 


FRR (string) : 用 来 表示 一 串 字 符 的 类 型 。 
自然 语言 (natural language) : 自然 演化 而 来 的 人 们 所 说 的 语言 。 


形式 语言 (formal language) : 人 们 设计 为 某 些 特定 目的 〈 如 表达 
数学 概念 或 者 计算 机 程序 ) 设计 的 任何 一 种 语言 。 所 有 编程 语言 都 属于 


形式 语言 。 











记号 (token) : 程序 的 语法 结构 的 最 基本 单位 ， 类 似 于 目 然 语言 
中 的 词 。 


语法 (syntax) : 用 于 控制 程序 结构 的 规则 。 
语法 分 析 (parse〉: 检查 程序 并 分 析 其 语法 结构 。 
bug: 程序 中 的 错误 。 


调试 (debugging) : 发 现 和 纠正 bug 的 过 程 。 


1.9 练习 


练习 1-1 


在 计算 机 前 阅读 本 书 是 一 个 好 主意 ， 因 为 你 可 以 边 看 边 试验 书 中 的 
示例 。 
每 当 你 试验 新 的 语言 特性 时 ， 应 当 试 着 故意 犯错 。 例 如 ， 


在 “Hello，World!”* 程 序 中 ， 如 果 少 写 一 个 引号 ， 会 发 生 什么 ? 如 果 两 个 
引号 都 不 写 ， 会 怎么 样 ? 如 果 把 print 拼写 错 了 ， 会 如 何 ? 





这 种 试验 会 帮 你 记 住所 读 的 内 容 ， 也 能 帮 你 学 会 调试 ， 因 为 这 样 能 
看 到 不 同 的 出 错 消息 代表 着 什么 。 现 在 故意 犯错 总 比 今后 在 编码 中 意外 
出 错 好 。 


1. 在 print 语句 中 ， 如 果 漏 掉 一 个 括号 ， 或 者 两 个 都 漏 掉 ， 会 发 
生 什 么 ? 


2. 如 末 正 尝试 打印 一 个 字符 串 ， 那 么 耕 汤 挥 一 个 或 所 有 的 引号 ， 
RREA? 


3. 可 以 使 用 一 个 负 号 来 表示 负数 ， 如 -2 。 如 果 在 数字 之 前 放 一 个 
IES, BRA A? 如 果 是 2++2 呢 ? 





4. 在 数学 标记 里 ， 前 置 0 是 没有 问题 的 ， 如 82 。 在 Python 中 也 这 人 么 
做 会 及 生 什 么 ? 


5. 如 果 在 两 个 值 之 间 不 放任 何 操 作 符 ， 会 发 生 什么 ? 
练习 1-2 
启动 Python 解释 器 ， 把 它 当 作 计 算 器 使 用 。 


1. 在 42 分 42 秒 中 ， 一 共有 多 少 秒 ? 








2. 10 千 米 相当 于 多 少 英 里 ? 提示 : 1 英里 相当 于 1.61 千 米 。 


3. 如 果 你 用 42 分 42 秒 跑 完 10 干 米 ， 那 么 你 的 平均 速度 〈( 跑 1 和 干 米 需 
要 的 分 钟 和 秒 数 ) 是 多 少 ? 平均 速度 是 多 少 干 米 每 小 时 ? 
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[1] “The penny dropped” 在 英语 里 的 意思 是 : AKAR, 
了 某 个 事情 。 HR 





第 2 章 ”变量 、 表 达 式 和 语句 





编程 语言 最 强大 的 特性 之 一 是 操纵 变量 的 能 力 。 变 量 是 指 同一 个 
值 的 名 称 。 


2.1 赋值 语句 


赋值 语句 可 以 建立 新 的 变量 ， 并 给 它们 赋值 : 


>>> message = ‘And now for somthing completely different 
>>> n = 17 
>>> pi = 3.1415926535897932 





这 个 例子 有 3 个 赋值 。 第 一 个 将 一 个 字符 串 赋 给 叫 作 message KAE 
; 第 二 个 将 17 赋值 给 n ; 第 三 个 将 n 的 (近似 ) 值 赋 给 变量 pi 。 


g 


在 纸 上 表 达 变 量 的 一 个 常见 方式 是 写 下 名 称 ， 并 用 箭头 指向 其 值 。 
这 种 图 称 为 状态 图 ， 因 为 它 显 示 了 每 个 变量 所 在 的 状态 (请 将 它 看 作 
变量 的 心理 状态 ) 。 图 2-1 显 示 了 前 面 例子 的 状态 图 。 








message 一 = And now for something completely different’ 


n —>= 17 





pi — > 3.1415926535897932 


图 2-1 ”状态 图 


Hit 
ar 
0 
zk 
3% 
ee 
+i 
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KY 
l 
= 
= 
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fi 
ot 
Ha 
cr 
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变量 名 可 以 任意 长 短 。 它 可 以 包含 字母 和 数字 ， 但 必须 以 一 个 字母 
开头 。 使 用 大 写字 母 是 合法 的 ， 但 变量 名 使 用 小 写字 母 开头 是 个 好 主意 
(后 面 你 会 看 到 为 何如 此 〉。 








下 划 线 “” 可 以 出 现在 变量 名 称 中 。 它 经 第 出 现在 由 多 个 词组 成 的 


变量 名 中 ， 如 your_name 或 aijrspeed of_unladen_swallow。 
如 果 给 变量 取 非 法 的 名 称 ， 会 得 到 一 个 语法 错误 : 


>>> 76trombones = 'big parade’ 
SyntaxError: invalid syntax 

>>> more@ = 1000000 

SyntaxError: invalid syntax 

>>> class = ‘Advanced Theoretical Zymurgy' 


SyntaxError: invalid syntax 





76trombones 非法 ， 因 为 它 以 数字 开头 。more@ 非法 ， 是 因为 它 
包含 了 一 个 非法 字符 @ 。 但 class 有 什么 问题 ? 

原因 是 class 是 Python 的 一 个 关键 字 。 解 释 器 通过 关键 字 来 识别 程 
序 的 结构 ， 并 且 它 们 不 能 用 来 作为 变量 名 称 。 


Python 2 共有 31 个 关键 字 : 


class finally is 


return 
continue for lambda 


try 


def from nonlocal while 


del global not with 
elif if or yield 
else import pass 


except in raise 





你 并 不 需要 记 住 这 个 清单 。 在 大 多 数 开 有 环境 中 ， 关 键 字 会 以 不 同 
的 颜色 显示 。 如 宁 把 它们 当 作 变量 来 用 ， 会 很 容易 发 现 。 
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表达 式 是 值 、 变 量 和 操作 符 的 组 合 。 单 独 一 个 值 也 被 看 作 一 个 表 
达 式 ， 单 独 的 变量 也 是 如 此 。 所 以 下 面 都 是 合法 的 表达 式 : 





当 你 在 提示 符 之 后 键入 一 个 表达 式 时 ， 解 释 器 会 对 其 进行 求 值 ， 
即 尝 试 找到 该 表达 式 的 最 终 值 。 在 本 例 中 ， 变 量 n 的 值 是 17， 而 表达 
式 n + 25 的 值 是 42。 





IBA) E 


>>> n = 17 
>>> print(n) 


一 段 会 产生 效果 的 代码 单元 ， 如 创建 新 变量 或 者 显示 一 个 





第 一 行 是 一 个 赋值 语句 ， 将 值 17 赋 给 变量 n 。 第 二 行 是 一 个 print 
语句 ， 显 示 变 量 n 的 值 。 

当 键入 一 行 语 名 之后， 解释 需 会 执行 它 ， 也 就 是 说 会 按照 语句 所 说 
的 来 做 。 通 常 来 说 ， 语 句 本 身 没 有 值 。 


2.4 ”脚本 模式 
到 目前 为 止 我 们 都 是 在 交互 模式 (interactive mode) 下 运行 


Python， 直 接 与 解释 右 打 交道 。 交 互 模式 非常 适合 入 门 ， 但 是 ， 如 果 你 
需要 编写 超过 几 行 的 代码 ， 它 可 能 显得 有 点 儿 笨 拙 。 








另 一 种 编程 模式 是 把 代码 保存 称 为 脚本 的 文件 中 ， 并 以 脚本 模式 
(script mode) 运行 解释 器 ， 执 行 脚本 。 依 照 惯例 ，Python 脚 本 文件 通 
常 以 .py 结尾 。 


如 有 果 你 已 经 了 解 在 自己 的 电脑 上 如 何 创建 和 运行 脚本 ， 就 可 以 继续 
学 习 了 。 人 否则 我 再 次 建议 使 用 PythonAnywhere。 我 在 
http://tinyurl.com/thinkpython2e 上 写 下 了 如 何在 脚本 模式 下 运行 的 指导 。 











由 于 Python 提 供 了 两 种 运行 模式 ， 你 可 以 在 交互 模式 中 尝试 代码 片 
段 ， 然 后 将 其 放 到 脚本 中 。 但 交互 模式 和 脚本 模式 还 是 有 一 些 区 别 的 ， 
可 能 会 引起 困惑 。 





例如 ， 如 采 使 用 Python 作为 计算 右 ， 你 可 能 会 输入 : 


>>> miles = 26.2 
>>> miles * 1.61 
42.182 





第 一 行 给 变量 miles 赋值 ， 但 没有 可 见 的 效果 。 第 二 行 是 一 个 表达 
式 ， 所 以 解释 器 对 其 进行 求 值 ， 并 显示 结果 。 于 是 我 们 知道 马拉松 的 长 
度 大 概 是 42 千 米 。 





但 如 果 将 上 面 同样 的 代码 写 入 到 脚本 中 并 运行 ， 则 得 不 到 任何 输 
出 。 在 脚本 模式 中 ， 一 个 单独 的 表达 式 ， 也 是 没有 可 见效 果 的 。Python 
实际 上 会 对 表达 陈 进 行 求 值 ， 但 不 会 显示 其 结果 。 除 非 你 叫 它 这 么 做 : 








miles = 26.2 
print (miles * 1.61) 





这 种 现象 一 开始 可 能 会 让 人 迷惑 。 


脚本 通常 包含 一 系列 的 语句 。 如 果 语 句 超 过 一 行 ， 那 么 会 随 着 语句 
执行 的 顺序 一 行 行 显示 结果 。 





例如 ， 脚 本 


print(1) 





产生 如 下 结 


赋值 语句 不 会 产生 任何 输出 。 


为 了 验证 你 的 理解 ， 可 以 在 Python 解 释 器 中 输入 下 面 的 语句 ， 看 它 
NM ITA: 


x xu 


现在 把 同样 的 语句 存 入 到 一 个 脚本 文件 并 运行 。 输 出 是 什么 ?修改 
脚本 ,将 所 有 的 表达 式 都 转换 成 print 语句 ， 表 运行 一 所 。 
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当 一 个 表达 式 中 出 现 多 个 操作 符 时 ， 求 值 的 顺序 依赖 于 优先 级 规则 
。 对 数学 操作 待 ，Python 章 守 数 学 的 传统 规则 。 缩 略 词 PEMDAS 可 以 
帮助 记忆 这 些 规则 : 


e 括号 (P, Parentheses) 拥有 最 高 的 优先 级 ， 并 可 以 用 来 强制 表达 
式 按照 你 需要 的 顺序 进行 求 值 。 因 为 括号 中 的 表达 式 会 先 执行 ， 所 
以 2*(3-1) 的 结果 是 4， 而 (1+1)**(5-2) 的 结果 是 8。 你 也 可 以 利 
用 括号 使 得 表达 式 更 加 易 恋 ， 就 像 (minute*x166)/66 这 样 ， 即 使 
这 里 增加 括号 并 不 会 改变 结果 。 

e I (Œ, Exponentiation) 操作 拥有 次 高 的 优先 级 ， 所 以 1+2##3 
的 结果 是 9， 而 不 是 27， 而 且 2 * 3**2 的 结果 是 18， 而 不 是 36。 

e X (M, Multiplication) 和 除法 (D Division) 优先 级 相同 ， 

并 且 高 于 亦 有 相同 优先 级 的 加 法 CA, Addition) 和 减法 CS, 

Substraction) 。 所 以 2*3-1 是 5， 而 不 是 4， 并 有 日 6+4/2 是 8， 而 不 

是 5。 

优先 级 相同 的 操作 按照 自 左 向 右 的 顺序 求 值 ( 除 了 乘 方 以 外 ) 。 所 

以 表达 式 degrees/2*pi ， 除 法 在 乘法 之 前 执行 ， 结 果 乘 以 pi 。 如 

末 想 除 以 2r， 可 以 使 用 括号 ， 或 者 写 为 degrees/2/pi 。 














其 他 操作 符 的 优先 级 ， 我 并 不 会 伦 太 多 功夫 记 下 来 。 如 果 只 看 表达 
式 不 能 确定 的 话 ， 使 用 括号 指明 优先 级 即 可 。 


2.6 FIFE PRIF 


通常 来 说 ， 字 符 串 不 能 进行 数学 操作 。 即 使 看 起 来 像 数 字 也 不 行 。 
下 面 的 操作 是 非法 的 : 


"eggs'/'easy' "third'*'a charm’ 





但 有 两 个 例外 : + 和 *。 


操作 符 + 进 行 字符 串 拼 接 (string concatenation) 操作 ， 意 即将 前 后 
两 个 字符 首尾 连接 起 来 。 例 如 : 





>>> first = ‘throat’ 
>>> second = ‘warbler' 
>>> first + second 
throatwarbler 





操作 符 * 也 适用 于 字符 串 ， 它 进行 重复 操作 。 例 如 ， 'Spam'*3 的 结 





RJE 'SpamSpamSpam' 。 如 果 * 的 两 个 操作 对 象 之 一 是 字符 串 ， 那 另 一 
个 必须 是 整数 。， 


字符 串 的 + 和 *# 的 应 用 ， 实 际 上 和 数字 的 加 法 与 乘法 类 似 。 就 像 4*3 
与 4+4+4 相等 一 样 ， 我 们 预期 'Spam'*3 5 'Spam'+'Spam'+'Spam' 也 
相等 ， 实 际 也 确实 如 此 。 另 一 方面 ， 字 符 串 的 拼接 与 重复 操作 和 整数 的 
加 法 与 乘法 操作 也 有 很 大 的 不 同 。 你 能 够 想 出 加 法 的 一 个 属性 ， 字 符 串 
拼接 操作 并 不 文 持 吗 ? 


2.7 注释 


当 程 序 变 得 更 大 更 复兴 时 ， 读 起 来 也 更 困难 。 形 式 语言 很 紧 竣 ， 经 
常会 遇 到 一 段 代码 ， 却 很 难 错 清 它 在 做 什么 、 为 什么 那么 做 。 


因此 ， 在 程序 中 加 入 自然 语言 的 笔记 来 解释 程序 在 做 什么 ， 是 个 好 
主意 。 这 种 笔记 被 称 为 注 秋 〈comments) ， 它 们 以 # 开头 : 


# compute the percentage of the hour that has elapsed 
percentage = (minute * 100) / 66 








在 这 个 例子 里 ， 注 释 单独 占据 一 行 。 也 可 以 把 注释 放 到 代码 行 的 结 
FE: 


percentage = (minute * 100) / 60 # percentage of an hour 





从 # 开 始 到 行 尾 的 注释 内 容 都 会 被 解释 器 忽略 挥 一 一 它们 对 程 厅 本 





吴 运 行 没 有 任何 影响 。 





注释 最 重要 的 用 途 在 于 解释 代码 并 不 显而易见 的 特性 。 我 们 可 以 合 
理 地 认为 读者 可 以 看 懂 代 码 在 做 什么 ， 因 此 使 用 注释 来 解释 为 什么 这 
么 做 ， 要 有 用 得 多 。 








下 面 这 段 注 释 与 代码 重复 ， 坚 无 用 处 : 


v = 5 # 将 5 赋值 给 v 


pT 


而 下 面 这 段 注释 则 包含 了 代码 中 看 不 到 的 有 用 信息 : 


# 速度 ， 单 位 是 米 / 秒 











选择 好 的 变量 名 称 ， 可 以 减少 注释 的 需要 ， 但 长 名 字 也 会 让 复杂 表 
达 式 更 难 阅 读 ， 所 以 这 两 者 之 间 需 要 衡量 舍 取 。 





2.8 调试 


一 个 程序 中 可 能 出 现 3 种 错误 : 语法 错误 、 运 行 时 错误 和 语义 错 
误 。 对 它们 加 以 区 分 ， 可 以 更 快 地 找到 错误 。 


语法 错误 

语法 指 的 是 程序 的 结构 以 及 此 结构 的 规则 。 例 如 ， 括 号 必须 前 后 匹 
配 ， 所 以 (1+2) 是 合法 的 ， 而 8) 就 是 一 个 语法 错误 。 

程序 中 只 要 出 现 一 处 语法 错误 ，Python 就 会 显示 出 错 消息 并 退出 ， 
你 的 程序 就 无 法 运行 了 。 在 编程 生涯 的 最 初 几 周 中 ， 可 能 会 需要 花费 大 


量 时 间 来 查找 语法 错误 。 但 随 着 经 验 的 增加 ， 犯 错 会 越 来 越 少 ， 查 找 起 





运行 时 错误 





第 二 类 错误 是 运行 时 错误 ， 这 样 称 呼 是 因为 这 种 错误 只 有 程序 运行 
后 才 会 出 现 。 这 些 错 误 也 第 被 称 为 异 冲 (exception〉， 因 为 它们 常常 表 
示 某 些 异 各 的 《而 且 不 好 的 ) 事情 发 生 了 。 


运行 时 错误 在 开头 儿童 中 的 简单 示例 里 很 少 会 出 现 ， 所 以 可 能 要 过 
一 段 时 间 你 才 会 遇 到 。 
语义 错误 


第 三 类 错误 是 语义 错误 ， 意 思 是 错误 与 含义 相关 。 如 果 你 的 程序 中 
有 一 个 语义 错误 ， 程 序 仍 会 成 功 运 行 ， 而 不 会 产生 任何 出 错 消息 ， 但 是 
它 不 会 执行 正确 的 逻辑 。 它 会 做 其 他 的 事情 。 特 别 需 要 注意 的 是 ， 它 所 
做 的 正 是 你 的 代码 所 告诉 它 的 。 


查找 语义 错误 会 比较 斥 烦 ， 因 为 需要 反 疝 人 查找， 查看 程序 输出 并 和 汝 
试 弄 明 白 它 到 底 做 了 什么 。 


2.9 NER 


变量 (variable) : 引用 一 个 值 的 名 字 。 


赋值 语句 Cassignment statement) : 将 一 个 值 赋值 给 变量 的 语句 。 





状态 图 (state diagram) : 用 来 展示 一 些 变量 以 及 其 值 的 图 示 。 


关键 字 (keyword) : 编译 占 或 解释 器 保留 的 词 ， 用 于 解析 程序 ; 
变量 名 不 能 使 用 关键 字 ， 如 if ，def ，while 等 。 


操作 数 Coperand) : 操作 符 所 操作 的 值 。 
表达 式 (expression) : 变量 、 操 作 符 和 值 的 组 合 ， 可 以 表示 一 个 


单独 的 结果 值 。 
求 值 〈evaluate) : 对 表达 式 按 照 操 作 的 顺序 进行 计算 ， 求 得 其 结 
果 值 。 
个 命令 或 动作 的 一 段 代 码 。 至 今 我 们 见 


语句 (statement) : 表示 一 


过 赋值 语句 和 打印 语句 。 
执行 〈execute) : 运行 一 条 语句 ， 看 它 说 的 是 什么 。 


交互 模式 (interactive mode) : 使 用 Python 解释 器 的 一 种 方式 ， 在 


提示 符 之 后 键入 代码 。 
脚本 模式 (script mode) : 使 用 Python 解释 器 的 一 种 方式 ， 从 脚本 
中 读 入 代码 并 运行 它 。 
脚本 〈script) : 保存 在 文件 中 的 程序 。 
操作 顺序 Corder of operations) : 当 表 达 式 中 有 多 个 操作 符 和 操作 


对 象 要 求 值 时 ， 用 于 指导 求 值 顺序 的 规则 。 





拼接 Cconcatenate) :将 两 个 操作 数 首 尾 相 连 。 


注释 Ccomment) : 代码 中 附加 的 注解 信息 ， 


阅读 代码 ， 并 不 影响 程序 的 运行 。 





语法 错误 (syntax error) : 程序 中 的 一 种 错误 ， 导 致 它 无 法 进行 语 
法 解析 《因此 也 无 法 被 解释 器 执行 ) 。 


异常 Cexception) : 程序 运行 中 发 现 的 错误 。 
语义 (semantics) : 程序 表达 的 含义 。 


语义 错误 (semantic error) : 程序 中 的 一 种 错误 ， 导 致 程 序 所 做 的 
事情 不 是 程序 员 设 想 的 。 








2.10 ”练习 


练习 2-1 


重申 上 一 张 的 建议 ， 每 当 你 学 习 新 语言 特性 时 ， 都 应 当 在 交互 模式 
中 进行 尝试 ， 并 故意 犯 下 错误 ， 看 会 有 哪些 问题 。 


。 我 们 已 经 见 过 n = 42 是 合法 的 。 那 么 42 = nE? 

e 那么 = y = 1 呢 ? 

。 有 些 语 言 中 ， 每 个 语句 都 霸 要 以 分 写 〈;) 结尾 。 如 果 你 在 Python 语 
句 的 结尾 放 一 个 分 号 ， 会 有 什么 情况 ? 

。 如 果 在 语句 结尾 放 的 是 句号 呢 ? 

© 在 数学 标记 中 ， 对 于 x 乘 以 y ， 可 以 这 么 表达 : xy 。 在 Python 中 这 
样 尝试 会 有 什么 结果 ? 





练习 2-2 


把 Python 解 释 器 当 作 计 算 器 来 进行 练习 。 


1. 半径 为 r 的 球体 的 体积 是 (4/3)rr 3 。 半 径 为 5 的 球体 体积 是 多 少 ? 


2. 假设 一 本 书 的 定价 是 24.95 美 元 ， 但 是 书店 打 了 40% 的 折扣 《6 
H) 。 运 费 是 一 本 3 美元 ， 每 加 一 本 加 75 美 分 。60 本 书 的 总 价 是 多 少 ? 








3. 如 果 我 6:52 时 离开 家 ， 并 以 慢 速 (6 分 10 秒 / 干 米 ) 跑 1.6 干 米 ， 
接 下 来 以 4 分 30 秒 / 千 米 的 速度 跑 4.8 千 米 ， 再 以 慢 速 跑 1.6 千 米 。 请 问 我 
回 家 吃 早餐 是 什么 时 候 ? 


入 和 


第 3 章 ”函数 

在 程序 设计 中 ， 函 数 是 指 用 于 进行 某 种 计算 的 一 系列 语句 的 有 名 
称 的 组 合 。 定 义 一 个 函数 时 ， 需 要 指定 函数 的 名 称 并 写 下 一 系列 程序 语 
句 。 之 后 ， 就 可 以 使 用 名 称 来 < 调用 ”这 个 函数 。 


3.1 eR AAR 


前 面 我 们 已 经 见 过 函数 调用 的 一 个 例子 : 


>>> type(42) 
<class ‘int'> 





这 个 函数 的 名 称 是 type ， 括 号 中 的 表达 式 我 们 称 之 为 函数 的 参数 
这 个 函数 调用 的 结果 是 求 得 参数 的 类 型 。 
我 们 通常 说 函数 “接收 ”参数 ， 并 “返回 ”结果 。 这 个 结果 也 称 为 返回 
值 (return value) 。 
Python 提供 了 一 些 可 将 某 个 值 从 一 种 类 型 转换 为 另 一 种 类 型 的 函 
数 。int 函数 可 以 把 任何 可 以 转换 为 整 型 的 值 转换 为 整 型 ， 如果 转 换 失 
败 ， 则 会 报错 : 


>>> int('32') 
32 


>>> int('Hello') 
ValueError: invalid literal for int(): Hello 





int 可 以 将 浮 点 数 转换 为 整数 ， 但 不 会 做 四 舍 五 入 操作 ， 而 是 直接 
舍弃 小 数 部 分 。 


>>> int(3.99999) 
3 

>>> int(-2.3) 

-2 





Float 函数 将 整数 和 字符 串 转 换 为 浮 点 数 : 


>>> Float(32) 

32.0 

>>> Float('3.14159') 
3.14159 





BUA, str 函数 将 参数 转换 为 字符 串 : 


>>> str(32) 

13" 

>>> str(3.14159) 
"3.14159" 





3.2 ”数学 函数 


Python 有 一 个 数学 计算 模块 ， 提 供 了 大 多 数 党 用 的 数学 函数 。 模 块 
(module) 是 指 包 含 一 组 相关 的 函数 的 文件 。 


要 想 使 用 模块 中 的 函数 ， 需 要 先 使 用 import 语句 将 它 导 入 运行 环 


ta: 


>>> import math 





这 个 语句 将 会 创建 一 个 名 为 math 的 模块 对 象 (module object) 。 
如 果 显 示 这 个 对 象 ， 可 以 看 到 它 的 一 些 信息 : 


>>> math 
<module 'math' (built-in)> 





模块 对 象 包含 了 该 模块 中 定义 的 函数 和 变量 。 寿 要 访问 其 中 的 一 个 
函数 ， 需 要 同时 指定 模块 名 称 和 函数 名 称 ， 用 一 个 句点 〈.) 分 隔 。 这 
个 格式 称 为 句点 表示 法 〈dotnotation) 。 





>>> ratio = signal_power / noise power 
>>> decibels = 10 * math.1logi1@(ratio) 


>>> radians = 0.7 
>>> height = math.sin(radians) 


pO 


上 面 第 一 个 例子 使 用 了 math .log16 来 计算 以 分 贝 为 单位 的 信号 / 噪 
声 比 (假设 signal_power 和 noise_power 都 已 经 事先 定义 好 
J) 。math 模块 也 提供 了 log 函数 ， 用 来 计算 底 为 e 的 自然 对 数 。 





第 二 个 例子 计算 radians 的 正弦 值 。 这 个 变量 名 已 经 暗示 了 ，sin 
以 及 cos 、tan 等 三 角 函 数 接受 的 参数 是 以 弧度 (radians) 为 单位 的 。 
茶 要 将 角度 转换 为 弧度 ， 可 以 除 以 180 再 乘 以 nt: 


>>> degrees = 45 

>>> radians = degrees / 180.0 * math.pi 
>>> math.sin(radians) 

@.707106781187 








表达 式 math.pi 从 math 模块 中 获得 变量 pi 。 这 个 变量 的 值 是 nt 的 
浮 点 近似 值 ， 大 约 精 确 到 15 位 数字 。 





如 果 了 解 三 角 函 数 ， 可 以 把 上 面 的 结果 和 2 的 平方 根 的 一 半 进 


较 : 


>>> math.sqrt(2) / 2.6 
@.707106781187 
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到 现在 为 止 ， 我 们 已 经 分 别 了 解 了 程序 的 基本 元 素 一 一 变量 、 表 达 
式 和 语句 ， 但 还 没有 接触 如 何 将 它们 有 机 地 组 合 起 来 。 


程序 设计 语言 最 有 用 的 特性 之 一 就 是 可 以 将 各 种 小 的 构建 块 
(building block) 组 合 起 来 。 例 如 ， 函 数 的 参数 可 以 是 任何 类 型 的 表达 
式 ， 包 括 算术 操作 符 : 





x = math.sin(degrees / 360.0 * 2 * math.pi) 





甚至 还 包括 函数 调用 : 


x = math.exp(math.1log(x+1) ) 





基本 上 ， 在 任何 可 以 使 用 值 的 地 方 ， 都 可 以 使 用 任意 表达 式 ， 只 有 
一 个 例外 : 赋值 表达 式 的 左边 必须 是 变量 名 称 ， 在 左边 放置 任何 其 他 的 
表达 式 都 是 语法 错误 (后 面 我 们 还 会 看 到 这 条 规则 的 例外 情况 〉。 
>>> minutes = hours * 60 


>>> hours * 60 = minutes 
SyntaxError: can't assign to operator 

















3.4 添加 新 函数 


人 至此， 我 们 都 只 是 在 使 用 Python 提供 的 函数 ， 其 实 我 们 也 可 以 目 己 
ASIST PB. KRGEN 指定 新 函数 的 名 称 ， 并 提供 一 系列 程序 语 
人 句 ， 当 函数 被 调用 时 ， 这 些 语句 会 顺序 运行 。 


下 面 是 一 个 例子 : 


def print_lyrics(): 
print ("I'm a lumberjack, and I'm okay.") 
print ("I sleep all night and I work all day.") 














def 是 关键 字 ， 表 示 接 下 来 是 一 个 函数 定义 。 这 个 函数 的 名 称 
是 print_lyrics 。 子 数 名 称 的 书写 规则 和 变量 名 称 一 样 : 字母 、 数 字 
和 下 划 线 是 合法 的 ， 但 第 一 个 字符 不 能 是 数字 。 关 键 字 不 能 作为 函数 
名 ， 而 且 我 们 应 尽量 避免 函数 和 变量 同名 。 





函数 名 后 的 空 括 号 表示 它 不 接收 任何 参数 。 


函数 定义 的 第 一 行 称 为 函数 头 (header) ， 其 他 部 分 称 为 函数 体 
(body) 。 函 数 头 应 该 以 冒号 结束 ， 数 体 则 应 当 整 体 缩 进 一 级 。 依 照 
惯例 ， 缩 进 总 是 使 用 4 个 空格 ， 函 数 体 的 代码 语句 行 数 不 限 。 


本 例 中 print 语句 里 的 字符 串 使 用 双 引 号 括 起 来 。 单 引号 和 双 引 号 
的 作用 相同 。 大 部 分 情况 下 ， 人 们 都 使 用 单 引 号 ， 只 在 本 例 中 这 样 的 特 
殊 情 况 下 才 使 用 双 引 号 。 本 例 中 的 字符 串 里 本 号 就 存在 单 引 号 《这 里 的 
单 引 号 作为 纵 略 符号 用 ) 。 











代码 中 所 有 的 引号 〈 包 括 双 引号 和 单 引 号 ) 都 必须 是 “ 直 引 号 ”， 通 


常 在 键盘 上 的 Enter 键 附近 。 而 “和 斜 引 号 ?”， 在 Python 中 是 非法 的 。 


如 果 在 交互 模式 里 输入 函数 定义 ， 则 解释 器 会 输出 省 略 号 〈... ) 
提示 用 户 当 前 的 定义 还 没有 结 


>>> def print_lyrics(): 
print("I'm a lumberjack, and I'm okay.") 
print("I sleep all night and I work all day.") 





想 要 结束 这 个 函数 的 定义 ， 需 要 输入 一 个 空 行 。 
定义 一 个 函数 会 创建 一 个 函数 对 象 ， 其 类 型 是 "function' 。 


>>> print(print_lyrics) 

<function print_lyrics at @xb7e99e9c> 
>>> type(print_lyrics) 

<class 'function'> 





调用 新 创建 的 函数 的 方式 ， 与 调用 内 置 函 数 是 一 样 的 : 


>>> print_lyrics() 
I'm a lumberjack, and I'm okay. 
I sleep all night and I work all day. 
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复 上 面 的 歌词 ， 我 们 可 以 写 一 个 repeat_lyrics 函数 : 


def repeat_lyrics(): 
print_lyrics() 
print_lyrics() 





然后 可 以 调用 repeat_1lyrics : 


>>> repeat_lyrics() 

I'm a lumberjack, and I'm okay. 

I sleep all night and I work all day. 
I'm a lumberjack, and I'm okay. 

I sleep all night and I work all day. 





3.5 定义 和 使 用 


将 前 面 一 节 的 代码 片段 整合 起 来 ， 整 个 程序 束 像 下 面 这 个 样子 : 





def print_lyrics(): 
print("I'm a lumberjack, and I'm okay.") 
print("I sleep all night and I work all day.") 


def repeat_lyrics(): 
print_lyrics() 
print_lyrics() 


repeat_lyrics() 


pt 


这 个 程序 包含 两 个 函数 定义 : print_lyrics 和 repeat lyrics 

函数 定义 的 执行 方式 和 其 他 语句 一 样 ， 不 同 的 是 执行 后 会 创建 函数 对 
家 函数 体 里 面 的 语句 并 不 会 立即 运行 ， 而 是 等 到 函数 被 调用 时 才 执 
行 。 函 数 定义 不 会 产生 任何 输出 。 





你 可 能 已 经 猜 到 ， 必 须 移 创 建 一 个 函数 ， 才 能 运行 它 。 换 言 之 ， 函 
数 定义 必须 在 函数 被 调用 之 前 先 运 行 。 


作为 练习 ， 将 程序 的 最 后 一 行 移动 到 首 行 ， 于 是 函数 调用 会 匈 于 函 
数 定义 执行 。 运 行程 序 并 查看 会 有 什么 样 的 错误 信息 。 





现在 将 函数 调用 那 一 行 放 回 到 末尾 ， 并 将 函数 print_lyrics Wie 
义 移 到 函数 repeat_lyrics 定义 之 后 。 这 时 候 运行 程序 会 发 生 什么 ? 


3.6 ”执行 流程 


为 了 保证 函数 的 定义 先 于 其 首次 调用 执行 ， 需 要 知道 程序 中 语句 运 
行 的 顺序 ， 即 执行 流程 。 


执行 总 是 从 程序 的 第 一 行 开始 。 语 句 按照 从 上 到 下 的 顺序 逐一 运 





函数 定义 并 不 会 改变 程序 的 执行 流程 ， 但 应 注意 函数 体 中 的 语句 并 
不 立即 运行 ， 而 是 等 到 函数 被 调用 时 运行 。 





函数 调用 可 以 看 作 程 序 运行 流程 中 的 一 个 迁 回路 径 。 遇 到 函数 调用 


时 ， 并 不 会 直接 继续 运行 下 一 条 语句 ， 而 是 跳 到 函数 体 的 第 一 行 ， 继 续 
运行 完 函 数 体 的 所 有 语句 ， 再 跳 回 到 原来 离开 的 地 方 。 


这 样 看 似 简 单 ， 但 马上 你 就 会 及 现 ， 函 数 体 中 可 以 调用 其 他 函数 。 
当 程 序 流程 运行 到 一 个 函数 之 中 时 ， 可 能 需要 运行 其 他 函数 中 的 语句 。 
而 后 ， 当 运行 那个 函数 中 的 语句 时 ， 又 可 能 再 需要 调用 运行 为 一 个 函数 
的 语句 ! 











笠 好 Python 对 于 它 运行 到 哪里 有 很 好 的 记录 ， 所 以 每 个 函数 执行 顷 
束 后 ， 程 序 都 能 跳 回 到 它 离 开 的 地 方 。 直 到 执行 到 整个 程序 的 结尾 ， 才 
会 结束 程序 。 


总 之 ， 在 阅读 代码 时 ， 并 不 总 应 该 按照 代码 书写 顺序 一 行 行 阅读 ; 
有 了 时候， 按照 程序 执行 的 流程 来 阅读 代码 ， 理 解 的 效果 可 能 会 更 好 。 


3.7 BALE UW 


前 面 说 到 的 函数 有 些 需 要 传 入 参数 四。 例如 ， 当 调用 math. sin 
时 ， 需 要 传 入 一 个 数字 作为 实 参 。 有 的 函数 需要 多 个 实 参 : math .pow 


需要 两 个 ， 分 别 是 基数 (base) 和 指数 (exponent) 。 





在 函数 内 部 ， 实 参 会 赋值 给 称 为 形 参 (parameter) 的 变量 。 下 面 的 
例子 是 一 个 函数 的 定义 ， 接 收 一 个 实 参 : 








def print twice(bruce): 
print(bruce) 
print(bruce) 
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这 个 沙 数 在 调用 时 会 把 实 参 的 值 赋 到 形 参 bruce 上 ， 并 将 其 打印 两 
次 。 


这 个 函数 对 任何 可 以 打印 的 值 都 可 用 。 


>>> print twice('Spam') 
Spam 

Spam 

>>> print twice(42) 


>>> print twice(math.pi) 
3.14159265359 
3.14159265359 





内 置 函 数 的 组 合 规则 ， 在 用 户 自 定义 函数 上 也 同样 可 用 ， 所 以 我 们 
可 以 对 print_twice 使 用 任何 表达 式 作 为 实 参 : 


>>> print twice('Spam '*4) 

Spam Spam Spam Spam 

Spam Spam Spam Spam 

>>> print twice(math.cos(math.pi)) 





作为 实 参 的 表达 式 会 在 函数 调用 之 前 先 执行 。 所 以 在 这 个 例子 中 ， 
表达 式 'Spam '*4 和 math.cos(math.pi) 都 只 执行 一 次 。 


也 可 以 使 用 变量 作为 实 参 : 


>>> michael = ‘Eric, the half a bee.' 
>>> print_twice(michael) 

Eric, the half a bee. 

Eric, the half a bee. 





作为 实 参 传 入 到 函数 的 变量 的 名 称 (michael ) 和 函数 定义 里 形 参 
的 名 称 (bruce) 没有 关系 。 函 数 内 部 只 关心 形 参 的 值 ， 而 不 用 关心 它 
在 调用 前 叫 什么 名 字 ; 在 print_twice 函数 内 部 ， 大 家 都 叫 bruce 。 


3.8 ”变量 和 形 参 是 局 部 的 


es 这 个 变量 是 局 部 的 doca ， 即 它 
只 存在 于 这 个 函数 之 内 。 例 如 : 


def cat twice(part1, part2): 
cat = part1 + part2 
print twice(cat) 





这 个 函数 接收 两 个 实 参 ， 将 它们 拼接 起 来 ， 并 将 结果 打印 两 届 。 下 
面 是 一 个 使 用 这 一 函数 的 例子 : 





>>> line1 = 'Bing tiddle ' 
>>> line2 = 'tiddle bang.' 
>>> cat_twice(linel, line2) 
Bing tiddle tiddle bang. 
Bing tiddle tiddle bang. 


“cat_twice 结束 时 ， 变 量 cat 会 被 销毁 。 这 时 再 演 试 打印 它 的 


th, RAASTA: 





>>> print(cat) 
NameError: name ‘cat' is not defined 





形 参 也 是 局 部 的 。 例 如 ， 在 print_twice 函数 之 外 ， 不 存在 bruce 





要 跟 踊 哪 些 变 量 在 哪些 地 方 使 用 ， 有 时 候 画 一 个 栈 图 (stack 
diagram) 会 很 方便 。 和 状态 图 一 样 ， 栈 图 可 以 展示 每 个 变量 的 值 ， 不 
同 的 是 它 会 展示 每 个 变量 所 属 的 函数 。 











每 个 函数 使 用 一 个 帧 包含 ， 帧 在 栈 图 中 区 是 一 个 带 厦 函数 名 称 的 
盒子 ， 里 面 有 函数 的 参数 和 变量 。 前 面 的 函数 示例 的 栈 图 如 图 3-1 所 
示 。 


l line1 —> Bing tiddle ’ 
__main__ 
line2 — = tiddle bang.’ 


part1 — = ’Bing tiddle ’ 
cat_twice | part2 —> tiddle bang.’ 
cat —> ’Bing tiddle tiddle bang.’ 





print_twice | bruce —> ‘Bing tiddle tiddle bang.’ 


图 3-1 栈 图 


图 中 各 个 帧 从 上 到 下 安排 成 一 个 栈 ， 能 够 展示 出 哪个 函数 被 哪个 函 
数 调用 了 。 在 这 个 例子 里 ，print_twice 被 cat_twice 调用 ， 
而 cat_ twice 被 _main 调用 。 main _ 是 用 于 表示 整个 栈 图 的 图 
框 的 特别 名 称 。 在 所 有 函数 之 外 新 建 变量 时 ， 它 就 是 属于 __main__ 
的 。 

每 个 形 参 都 指 同 与 其 对 应 的 实 参 相同 的 值 ， 所 以 ，part1 和 1line1 
的 值 相同 ，part2 和 1ine2 的 值 相 同 ， 而 bruce 和 cat 的 值 相同 。 


如 果 调 用 函数 的 过 程 中 发 生 了 错误 ，Python 会 打印 出 函 ee 调用 
它 的 函数 的 名 称 ， 以 及 调用 这 个 调用 者 的 函数 名 ， 依 此 类 推 ， 
到 main 

例如 ， 如 果 在 print_twice 中 访问 cat 变量 ， 则 会 得 到 一 


个 NameError: 


Traceback (innermost last): 
File "test.py", line 13, in _main__ 
cat_twice(line1, line2) 
File "test.py", line 5, in cat twice 
print_twice(cat) 
File "test.py", line 9, in print_twice 


print cat 
NameError: name ‘cat' is not defined 





ETEK PR A FEAR AK AB Ctraceback) 。 它 告诉 你 错误 出 现在 
哪个 程序 文件 ， 哪 一 行 ， 以 及 哪些 函数 正在 运行 。 它 也 会 显示 导致 错误 
的 那 一 行 代码 。 





回调 中 函数 的 顺序 和 栈 图 中 图 框 的 顺序 一 致 。 当 前 正在 执行 的 函数 
在 最 底部 。 


3.10 AR ENÉ K BAC El eK BL 


在 我 们 使 用 过 的 函数 中 ， 有 一 部 分 函数 ， 如 数学 函数 ， 会 返回 结 
果 。 因 为 没有 想到 更 好 的 名 字 ， 我 称 这 类 函数 为 有 返回 值 函 数 〈fruitful 
function) 。 ies j 如 print_twice ， 会 执行 一 个 动作 ， 但 不 返 
EHEHE. RATIK RŽ NTR HE Kt (void function) 。 


当 调用 一 个 有 返回 值 的 函数 时 ， 大 部 分 情况 下 你 都 想 要 对 结果 做 某 
种 操作 。 例 如 ， 你 可 能 会 想 把 它 赋值 给 一 个 变量 ， 或 者 用 在 一 个 表达 式 
中 


x = math.cos(radians) 
golden = (math.sqrt(5) + 1) / 2 


ee 


在 交互 模式 中 调用 函数 时 ，Python 会 直接 显示 结果 : 


>>> math.sqrt(5) 
2.2360679774997898 








但 是 在 脚本 中 ， 如 果 只 是 直接 调用 这 类 函数 ， 那 么 它 的 返回 值 束 会 
KIER ! 


math.sqrt(5) 








这 个 脚本 计算 5 的 平方 根 ， 但 由 于 并 没有 把 计算 结果 存储 到 东 个 变 
量 中 ， 或 显示 出 来 ， 所 以 其 实 疫 什么 实际 作用 。 








无 返回 值 函 数 可 能 在 屏幕 上 显示 某 些 东西 ， 或 者 有 其 他 的 效果 ， 但 
是 它们 没有 返回 值 。 如 果 把 该 结果 赋值 给 某 个 变量 ， 则 会 得 到 一 个 特殊 
的 值 None 。 








>>> result = print_twice('Bing') 


>>> print result 
None 
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值 None 和 字符 串 "None' 并 不 一 样 。 它 是 一 个 特殊 的 值 ， 有 自己 独 
特 的 类 型 : 


>>> print type(None) 
<class 'NoneType'> 








到 目前 为 止 ， 我 们 目 定 义 的 函数 都 是 无 返回 值 函 数 。 再 过 几 章 我 们 
就 会 开始 写 有 返回 值 的 函数 了 。 


3.11 为 什么 要 有 函数 





为 什么 要 人 花 功夫 将 程序 拆 分 成 函数 呢 ? 也 许 刚 开始 编程 的 时 候 这 其 
中 的 原因 并 不 明晰 。 下 面 这 些 解 释 都 可 作为 参考 。 


。 新建 一 个 函数 ， 可 以 让 你 有 机 会 给 一 组 语句 命名 ， 这 样 可 以 让 代码 
更 易 读 和 更 易 调 试 。 

。 图 数 可 以 通过 减少 重复 代码 使 程序 更 短小 。 后 面 如 条 需 要 修改 代 
码 ， 也 只 要 修改 一 个 地 方 即 可 。 

。 将 一 长 段 程序 拆 分 成 几 个 函数 后 ， 可 以 对 每 一 个 函数 单独 进行 调 
试 ， 再 将 它们 组 装 起 来 成 为 完整 的 产品 。 

。 一 个 设计 展 好 的 函数 ， 可 以 在 很 多 程序 中 使 用 。 书 写 一 次 ， 调 试 一 
RK, BHEN. 





3.12 ”调试 


你 将 会 掌握 的 一 个 最 重要 的 技能 就 是 调试 。 虽 然 调 试 可 能 时 有 烦 
恼 ， 但 它 的确 是 编程 活动 中 最 耗 脑力 、 最 有 挑 成 、 最 有 趣 的 部 分 。 


在 茶 种 程度 上 上， 调试 和 刑侦 工作 很 像 。 你 会 面 对 一 些 线索 ， 而 且 必 
须 推导 出 事情 发 生 的 过 程 ， 以 及 导致 现场 结果 的 事件 。 





调试 也 像 是 一 种 实验 科学 。 一 旦 猜 出 错误 的 可 能 原因 ， 就 可 以 修改 
程序 ， 再 运行 一 次 。 如 宋 猜 对 了 ， 那 么 程序 的 运行 结果 会 符合 预测 ， 这 
样 就 离 正 确 的 程序 更 近 了 一 步 。 如 采 猜 错 了 ， 则 需要 重新 思考 。 正 如 夏 
党 元" 福尔摩斯 所 说 的 :“ 当 你 排除 挥 所 有 的 可 能 性 ， 那 么 剩 下 的 ， 不 管 
多 么 不 可 能 ， 必 定 是 真相 。”( 柯 南 : 道 尔 《四 签名 》) 





对 东 些 人 来 说 ， 编 程 和 调试 是 同一 件 事 。 也 就 是 说 ， 编 程 正 是 不 断 
调试 修改 直到 程序 达到 设计 目的 的 过 程 。 这 种 想法 的 要 由 是 ， 应 该 从 一 
个 能 做 茶 些 事 的 程序 开始 ， 然 后 做 一 点 点 修改 ， 并 调试 修改 ， 如 此 过 
代 ， 以 确保 总 是 有 一 个 可 以 运行 的 程序 。 








例如 ，Linux 是 包含 了 数 百 万 行 代码 的 操作 系统 ， 但 最 开始 只 是 
Linus Torvalds 编 写 的 用 来 研究 Intel 80386 心 片 的 简单 程序 。 据 Larry 
Greenfield 所 说 : “Linus 节 早 的 一 个 程序 是 交 痊 打印 AAAA 和 BBBB。 后 
来 这 些 程序 演化 成 了 Linux。”( 《Linux 用 户 指 南 》Beta 版 本 1) 


3.13 Rib 


函数 (function): 一 个 有 名 称 的 语句 序列 ， 可 以 进行 某 种 有 用 的 
操作 。 函 数 可 以 接收 或 者 不 接收 参数 ， 可 以 返回 或 不 返回 结果 。 





函数 定义 (function definition) : 一 个 用 来 创建 新 函数 的 语句 ， 指 
定 函 数 的 名 称 、 参 数 以 及 它 包 含 的 语句 序列 。 


函数 对 象 (function object) : 函数 定义 所 创建 的 值 。 函 数 名 可 以 
用 作 变 量 来 引用 一 个 函数 对 象 。 


函数 头 Cheader) : 函数 定义 的 第 一 行 
函数 体 〈body) : 函数 定义 内 的 语 名 序列。 


形 参 (parameter) : 函数 内 使 用 的 用 来 引用 作为 实 参 传 入 的 值 的 
名 称 。 


函数 调用 (function call) : 运行 一 个 函数 的 语句 。 它 由 函数 名 称 
和 括号 中 的 参数 列表 组 成 。 


K (argument) : 当 函 数 调用 时 ， 提 供给 它 的 值 。 这 个 值 会 被 赋 
值 给 对 应 的 形 参 。 











局 部 变量 (local variable) : 函数 内 定义 的 变量 。 局 部 变量 只 能 在 
函数 体内 使 用 。 


返回 值 (return value) : 函数 的 结果 。 如 果 函 数 被 当 作 表达 式 调 
用 ， 返 回 值 就 是 表达 式 的 值 。 


有 返回 值 函 数 (fruitful function) : 返回 一 个 值 的 函数 。 


无 返回 值 函 数 (void function) : 总 是 返回 None 的 函数 。 


None: 由 无 返回 值 函 数 返回 的 一 个 特殊 值 。 


模块 (module): 一 个 包含 相关 阔 数 以 及 其 他 定义 的 集合 的 文 
a 


import 语 句 (import statement) : 读 入 一 个 模块 文件 ， 并 创建 一 个 
模块 对 象 的 语句 。 


模块 对 象 (module object) : 使 用 import 语句 时 创建 的 对 象 ， 提 
供 对 模块 中 定义 的 值 的 访问 。 


句点 表示 法 (dot notation) : 调用 为 一 个 模块 中 的 函数 的 语法 ， 使 
用 模块 名 加 上 一 个 句点 符号 ， 再 加 上 图 数 名 。 


组 合 (composition) : 使 用 一 个 表达 式 作 为 更 大 的 表达 式 的 一 部 
分 ， 或 者 使 用 语句 作为 更 大 的 语句 的 一 部 分 。 


执行 流程 (flow of execution) : 语句 运行 的 顺序 。 


栈 图 (stack diagram) : 函数 栈 的 图 形 表达 形式 ， 也 展示 它们 的 变 
， 以 及 这 些 变 量 引 用 的 值 。 


val 


图 框 (frame) : 栈 图 中 的 一 个 图 框 ， 表 达 一 个 函数 调用 。 它 包含 
了 局 部 变量 以 及 函数 的 参数 。 


回溯 (traceback) : 当 异 稼 发 生 时 ， 打 印 出 正在 执行 的 函数 栈 。 


3.14 练习 


练习 3-1 


编写 一 个 函数 right_justify ， 接 收 一 个 字符 串 形 参 s ， 并 打印 出 
足够 的 前 导 空 白 ， 以 达到 最 后 一 个 字符 显示 在 第 70 列 上 。 





>>> right justify('monty') 





提示 : 可 以 利用 字符 串 的 拼接 和 重复 特性 。 另 外 ，Python 提 供 了 一 
个 内 置 名 为 len 的 函数 ， 返 回 一 个 字符 串 的 长 度 ， 所 以 len('allen ' ) 
的 值 是 5。 


练习 3-2 


函数 对 象 是 一 个 值 ， 可 以 将 它 赋值 给 变量 ， 或 者 作为 实 参 传递 。 例 
如 ，do_twice 古 一 个 函数 ， 接 收 一 个 函数 对 象 作 为 实 参 ， 并 调用 它 两 
次 : 


def do_twice(f): 
fO) 


fO 





下 面 是 一 个 使 用 do_twice 来 调用 一 个 print_spam 函数 两 次 的 示 
例 : 


def print spam(): 


print('spam' ) 


do_twice(print_spam) 





1. 将 这 个 示例 存 入 脚本 中 并 测试 它 。 


2. 修改 do_twice ， 让 它 接 收 两 个 实 参 ， 一 个 是 函数 对 象 ， 力 一 个 
古 一 个 值 ， 它 会 调用 函数 对 象 两 次 ， 并 传 入 那个 值 作为 实 参 。 


3. 将 本 章 前 面 介绍 的 函数 print_twice 的 定义 复制 到 你 的 脚本 


4. 使 用 修改 版 的 do_twice 来 调用 print_twice 两 次 ， 并 传 入 实 


参 ' spam' 


5. 定义 一 个 新 的 函数 do_four ， 接 收 一 个 函数 对 象 与 一 个 值 ， 使 
用 这 个 值 作 为 实 参 调用 函数 4 次 。 这 个 函数 的 函数 体 应 该 只 有 2 条 语句 ， 
而 不 是 4 条 。 


解答 : http://thinkpython2.com/code/do_four.py 
练习 3-3 


TER: 这 个 练习 应 该 只 用 语句 和 我 们 已 经 学 过 的 其 他 语言 特性 实 
现 。 


1. 编写 一 个 函数 ， 绘 制 如 下 的 表格 : 

















提示 : 要 在 同一 行 打 印 多 个 值 ， 可 以 使 用 逗号 分 隅 不 同 的 值 : 





默认 情况 下 ，Print 会 目 动 换行 ， 如 果 你 想 改变 这 一 行为 ， 在 结尾 
打印 一 个 空格 ， 可 以 这 样 做 : 


print('+', end=' ') 
print('-') 





这 两 条 语句 的 输出 是 '+ -" 








不 市 参数 的 print 语句 会 结束 当前 行 并 开始 下 一 行 。 
2. 编写 一 个 函数 绘制 类 似 的 表格 ， 但 有 4 行 4 列 。 


解答 :http://thinkpython2.com/code/grid.py。 鸣 谢 : 这 个 练习 基于 
Oualline 的 《实践 C 编 程 》 第 3 版 (O'Reilly Media, 1997) 中 的 一 个 示 


例 。 





[1] 这 一 段 中 讲 的 参数 有 两 种 : 函数 定义 里 的 形 参 (parameter) ， 以 及 
调用 函数 时 传 入 的 实 参 Cargument) ， 这 里 两 种 是 有 区 分 的 。 一 一 译 者 
注 


[2] 调用 时 传 入 的 参数 称 为 实 参 (argument) 。 一 一 详 者 注 


Fae ” 采 例 研究 ;接口 设计 


本 章 通 过 一 个 案例 研究 来 展示 设计 互相 配合 的 函数 的 过 程 。 





本 章 介绍 turtle 模块 ， 通 过 这 个 模块 可 以 使 用 乌龟 图 形 来 创造 图 
像 。 大 多 数 Python 安 装 包 里 都 包含 了 turtle 模块 ， 但 是 如 果 使 用 的 是 
PythonAnywhere， 则 不 能 直接 运行 乌 包 示例 (至少 在 我 写本 这 本 书 的 时 
候 还 不 行 ) 。 











如 果 你 已 经 在 电脑 上 安装 了 Python， 应 该 可 以 运行 本 章 的 示例 。 否 
则 ， 现 在 就 是 安装 Python 的 好 时 机 。 我 在 http:Wtinyurl.comy/thinkpython2e 
上 写 了 安装 指南 。 


本 章 的 代码 示例 可 以 从 http://thinkpython2.com/code/polygon.py 下 
载 。 


4.1 turtle 模块 





要 检查 是 人 否 己 经 安装 了 turtle RR, Ay LTT Python fie Mt as FF EE 
-A 人 


>>> import turtle 
>>> bob = turtle.Turtle() 








运行 这 段 代码 时 ， 应 该 会 创建 一 个 新 窗口 ， 里 面 有 一 个 小 荫 头 代表 
乌 怨 。 请 关闭 窗口 。 


创建 一 个 文件 mypolygon.py ， 并 输入 如 下 代码 : 


import tutle 

bob = turtle.Turtle() 
print(bob) 
turtle.mainloop() 





turtle fH CW Burk) 提供 一 个 叫 作 Turtle 的 函数 (以 大 
写 T 开 头 ) ， 它 会 创建 一 个 Turtle 对 象 ， 我 们 将 其 赋值 到 bob 变量 。 打 
印 bob 会 得 到 类 似 下 面 的 输出 : 


<turtle.Turtle object at 6xb7bfbf4c> 











这 意味 着 bob 变量 引用 着 在 turle 模块 中 定义 的 Turtle 类 型 的 一 
个 对 象 。 


mainloop 告诉 窗口 去 等 得 用 户 进行 条 些 操作 ， 虽 然 现 在 除了 关闭 
窗口 之 外 ， 并 没有 提供 给 用 户 多 少 有 用 的 操作 。 


创建 好 一 个 乌龟 《Turle) 之 后 ， 就 可 以 调用 它 的 一 个 方法 
(method) 来 在 窗口 中 移动 。 方 法 和 函数 类 似 ， 但 是 使 用 的 语法 略 有 不 
同 。 例 如 ， 要 让 乌龟 辣 前 移动 : 








bob.fd(166) 


这 个 方法 fd 和 我 们 称 为 bob 的 乌龟 对 象 是 关联 的 。 调 用 方法 和 发 
出 一 个 请 求 类 似 : 你 是 在 请 求 bob 去 向 前 移动 。 





fd 的 参数 是 移动 的 距离 ， 以 像素 〈pixel) 为 单位 ， 所 以 实际 移动 
的 距离 依赖 于 显示 器 的 分 辩 率 。 


Turtle 对 象 的 其 他 方法 包括 bk ( 用 于 前 进 和 后 退 ) . 1t 和 rt H 
于 左 转 和 右 转 ) 。1t 和 rt 的 参数 是 旋转 的 角度 ， 单 位 是 度 。 


另外 ， 每 只 乌龟 都 拿 着 一 只 笔 ， 可 以 朝 上 或 者 绷 下 ; ARP, J 
会 绘制 出 走 过 的 路 迹 。 方 法 pu 和 pd 分 别 表示 “ 笔 朝 上 ”(pen up) 和 “ 笔 
朝 下 ”(pen down) 。 


若 要 男 一 个 朝 右 的 角 ， 在 程序 中 (建立 bob 实例 之 后 ， 调 
用 mainloop 之 前 ) 添加 如 下 代码 : 


bob.fd(166) 
bob.1t(96) 
bob.fd(166) 





运行 这 个 程序 时 ， 将 会 看 到 bob RARE, FRIEZE, Sa Be PPA 
条 线段 。 





现在 试 着 修改 程序 ， 夯 出 一 个 正方 形 来 。 在 成 功 之 前 请 不 要 继续 ! 


4.2 人 简单 重复 





你 可 能 会 写 下 如 下 代码 : 
fd(100) 
.1t (98) 


fd(100) 
1t (90) 


. fd (100) 


1t (90) 


. fd (100) 





使 用 for 语句 ， 可 以 更 紧凑 地 实现 同样 功能 。 把 下 面 的 例子 加 
到 mypolygon.py 中 ， 并 再 运行 一 次 : 


for i in range(4): 
print('Hello!') 








可 能 会 看 到 如 下 输出 : 
Hello! 
Hello! 
Hello! 


Hello! 


这 是 for 语句 的 最 简单 用 法 ， 后 面 我们 会 看 到 更 多 的 用 法 。 但 这 样 
己 经 足够 重 写 刚 才 的 画 正 方形 的 程序 了 。 请 重 写 后 再 接着 阅读 。 


下 面 是 使 用 for 语句 绘制 正方 形 的 程序 : 


for i in range(4): 
bob. fd(10@) 
bob.1t(90) 





for 语句 的 语法 和 函数 定义 类 似 。 它 也 有 一 个 以 冒号 结束 的 语句 
头 ， 并 有 一 个 缩 进 的 语句 体 。 语 句 体 可 以 包含 任意 数量 的 语句 。 


for 语句 也 称 为 循环 Coop) ， 因 为 执行 流程 会 届 历 语句 体 ， 之 后 
从 语句 体 的 最 开头 重新 循环 执行 。 在 这 个 例子 里 ， 语 句 体 执行 了 4 次 。 


这 个 版 本 的 代码 和 之 前 的 绘制 正方 形 的 代码 其 实 还 稍 有 不 同 ， 因 为 
在 最 后 一 次 循环 后 它 多 做 了 一 次 左 转 。 多 余 的 左 转 稍 微 多 消耗 了 点 时 
间 ， 但 因为 每 次 循环 做 的 事情 都 一 样 ， 也 让 代码 更 简练 。 这 个 版 本 的 代 
码 还 有 一 个 效果 ， 程 序 执行 完 之 后 ， 马 包 会 回归 到 初始 的 位 置 ， 并 朝 问 
初始 相同 的 方 同 。 








4.3 ”练习 





下 面 是 一 系列 使 用 乌龟 世界 的 练习 。 它 们 力求 有 趣 ， 但 也 包含 着 某 


些 帘 意 。 做 这 些 练习 时 ， 可 以 猜想 一 下 其 富 意 。 











在 接 下 来 的 章节 中 有 这 些 练习 的 解答 ， 所 以 在 完成 或 着 至 少 尝试 
过 ) 之 前 ， 请 先 别 继续 阅读 。 


1， 写 一 个 函数 square ， 接 受 一 个 形 参 t ， 用 来 表示 一 只 乌 怨 。 利 
用 乌龟 来 画 一 个 正方 形 。 


写 一 个 函数 调用 传 入 bob 作为 实 参 来 调用 square 函数 ， 并 再 运行 
遍 程 序 。 


2. 给 square 函数 再 添加 一 个 形 参 length 。 修 改 函 数 内 容 ， 保 证 
正方 形 的 长 度 是 length ， 并 修改 函数 调用 以 提供 这 第 二 个 实 参 。 再 运 
一 遍 程序 。 使 用 不 同 的 length 值 测试 你 的 程序 。 


3. 复制 square Kr, F#m4 Npolygon 。 再 添加 一 个 形 参 n 并 修 
改 函 数 体 以 绘制 一 个 正 n 边 形 。 提 示 : 正 mn 边 形 的 拐角 是 360/m E. 


4. 写 一 个 函数 circle 接受 代表 乌龟 的 形 参 t ， 以 及 表示 半径 的 形 
Br, ， 并 使 用 合适 的 长 度 和 边 数 调用 polygon 画 一 个 近似 的 圆 。 使 用 不 
同 的 r 值 来 测试 你 的 函数 。 


提示 : 思考 圆 的 周 长 〈(circumference) ， 并 保证 length * n= 


circumference 。 


另 一 个 提示 : 如 果 你 觉得 bob 太 慢 ， 可 以 修改 bob.delay 来 加 
速 。bob.delay 代表 每 次 行动 之 间 的 停顿 ， 单 位 是 秒 。bob .delay = 
0.01 应 该 能 让 它 跑 得 足够 快 。 





5. 给 circle 函数 写 一 个 更 通用 的 版 本 ， 称 为 arc 。 增 加 一 个 形 参 
angle ， 用 来 表示 画 的 圆 弧 的 大 小 。 这 里 angle 的 单位 是 度数 ， 所 以 
当 arc=366 时 ， 则 会 画 一 个 整 圆 。 
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第 一 个 练习 要 求 把 画 正方 形 的 代码 放 到 一 个 函数 定义 中 ， 并 将 乌 凶 
bob 作为 实 参 传 入 ， 调 用 该 函数 。 下 面 是 一 个 解答 : 


def square(t): 
for i in range(4): 
t.fd(100) 
t.1t(90) 


square(bob) 








最 内 侧 的 语句 ，fd 和 1t 都 缩 进 了 两 层 ， 表 示 它 们 是 在 for 语句 的 
语句 体内 部 ， 而 for 语句 在 函数 定义 的 函数 体内 部 。 最 后 一 
行 ，square(bob) ， 又 重新 从 左 侧 开 始 而 没有 缩 进 ， 这 表明 for 语句 和 
Square 函数 的 定义 都 已 经 结束 。 


在 函数 体 中 ，t 引用 的 乌龟 和 bob 引用 的 相同 ， 所 以 t.1t(98) 和 
直接 调用 bob. lt(96) 是 一 样 的 效果 。 在 这 种 情况 下 为 什么 不 直接 把 形 
参 写 为 bob Wa? 原因 是 t 可 以 是 任何 乌龟 ， 而 不 仅仅 是 bob ， 所 以 可 以 
再 新 建 一 只 乌龟 ， 并 将 它 作为 参数 传 入 到 square 函数 : 


alice = Turtle() 





square(alice) 





fE— BORG eR a SEL, BRA 〈encapsulation) 。 封 装 的 
—A Abe, CARRAR -NEERA HS Ate. A 
好 处 是 ， 当 重复 使 用 这 段 代 码 时 ， 调 用 一 次 函数 比 复制 粘贴 代码 要 简易 
得 多 ! 
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下 一 步 是 给 square 函数 添加 一 个 length 参数 。 这 里 是 一 个 解决 方 
案 ; 


def square(t, length): 
for i in range(4): 
t.fd(length) 
t.1t(90) 


square(bob, 100) 





给 函数 添加 参数 的 过 程 称 为 泛 化 (generalization) ， 因 为 它 会 让 函 
数 变 得 更 通用 : 在 之 前 的 版 本 中 ， 正 方形 总 是 一 个 大 小 ， 而 新 的 版 本 
中 ， 可 以 是 任意 大 小 。 





下 一 步 也 是 一 次 泛 化 。 我 们 不 再 只 绘制 正方 形 ， 而 是 可 以 绘制 任意 
边 数 的 多 边 形 。 这 里 是 一 个 方案 : 





def polygon(t, n, length): 
angle = 360 / n 
for i in range(n): 
t.fd(length) 
t.lt(angle) 


polygon(bob, 7, 70) 





这 个 例子 绘制 一 个 7 边 形 ， 边 长 是 70。 


如 果 使 用 的 是 Python 2， 那 么 angle 的 值 可 能 会 因为 整数 除法 而 错 
误 。 一 个 简单 的 解决 办 法 是 使 用 angle = 360.0 / n 。 因 为 分 子 是 一 
个 浮 点 数 ， 所 以 结果 也 会 是 浮 点 数 。 








如 果 函 数 的 形 参 比较 多 ， 很 容易 态 掉 每 一 个 具体 是 什么 ， 或 者 在 挥 
它们 的 顺序 。 所 以 在 Python 中 ， 调 用 函数 时 可 以 加 上 形 参 名 称 ， 这 样 是 
合法 的 ， 并 且 有 时 候 会 有 帮助 : 


polygon(bob, n=7, length=70) 





这 些 参数 被 称 为 关键 词 参数 (keyword argument) ， 因 为 它们 使 
用 “关键 词 ” 的 形式 带 上 了 形 参 的 名 称 调用 G 青 别 和 while 与 def 之 类 的 
Python 关键 字 混 消 ) 。 





这 个 语法 使 得 程序 更 加 可 读 。 它 也 同样 提示 了 我 们 实 参 和 形 参 的 工 
作 方 式 : 当 调 用 函数 时 ， 实 参 传 入 并 赋值 给 形 参 。 


4.6 接口 设计 


下 一 步 是 写 画 圆 的 circle 函数 ， 接 受 形 参 r ， 表 示 圆 的 半径 。 下 
面 是 一 个 简单 的 例子 ， 通 过 调用 polygon 函数 画 50 边 的 多 边 形 : 


import math 


def circle(t, r): 
circumference = 2 * math.pi * r 
n = 50 
length = circumference / n 


polygon(t, n, length) 





第 一 行 计 算 半 径 为 r 的 圆 的 周 长 ， 使 用 公式 2rr 。 因 为 我 们 使 用 的 
是 math.pi ， 所 以 需要 先导 入 math 模块 。 依 照 惯例 ，import 语句 一 般 
都 放 在 脚本 开头 。 


n 是 我 们 用 于 近似 画 圆 的 多 边 形 的 边 数 ， 所 以 length 是 每 个 边 的 
长 度 。 因 此 ，polygon 画 出 一 个 50 边 形 ， 近 似 于 一 个 半径 为 r 的 圆 。 











这 个 解决 方案 的 缺点 之 一 是 n 是 一 个 常量 ， 因 此 对 于 很 大 的 圆 ， 多 
边 形 的 边线 太 长 ， 而 对 于 小 圆 ， 我 们 又 浪费 时 间 去 画 过 短 的 边线 。 解 决 
办 法 之 一 是 泛 化 这 个 函数 ， 加 上 形 参 n 。 这 样 可 以 给 用 户 ( 调 用 circle 
PBI AD 更 多 的 控制 选择 ， 但 接口 就 不 那么 清晰 整洁 了 。 








函数 的 接口 是 如 何 使 用 它 的 概要 说 明 : 它 有 哪些 参数 ? 这 个 函数 
做 什么 ? 它 的 返回 值 是 什么 ? 我 们 资 一 个 接口 “整洁 ”(clean) ， 是 说 它 
能 够 让 调用 者 完成 所 想 的 事情 ， 而 不 需要 处 理 多 余 的 细节 。 


在 这 个 例子 里 ，r 属于 函数 的 接口 ， 因 为 它 指定 了 所 画 的 圆 的 基本 
属性 。 相 对 地 ，n 则 不 那么 适合 ， 因 为 它 说 明 的 是 如 何 en a AANA fa 


CI 


所 以 与 其 弄 乱 接口 ， 不 如 在 代码 内 部 根据 周 长 来 选择 合适 的 n 值 : 


def circle(t, r): 
circumference = 2 * math.pi * r 
n = int(circumference / 3) +1 
length = circumference / n 


polygon(t, n, length) 





现在 多 边 形 的 边 数 是 一 个 接近 circumferencey/3 的 整数 ， 所 以 每 
边 长 近似 是 3， 已 经 小 到 足够 画 出 好 看 的 圆 形 ， 但 又 足够 大 到 不 影响 
a. 并 且 可 接受 任何 尺寸 的 圆 。 


4.7 HRY 


当 我 写 circle 函数 时 ， 我 可 以 复 用 polygon ， 因 为 边 数 很 多 的 正 
多 边 形 是 圆 的 很 好 的 近似 。 但 是 arc 则 并 不 那么 容易 对 付 ; 我 们 不 能 使 
用 polygon 或 者 circle Xm AJK. 


换个 办 法 ， 可 以 先 复制 一 个 polygon 函数 ， 再 通过 修改 得 到 arc K 
数 。 结 有 果 可 能 类 似 下 面 的 示例 : 





def arc(t, r, angle): 
arc_length = 2 * math.pi * r * angle / 360 
n = int(arc_length / 3) + 1 


step_length = arc_length / n 
step_angle = angle / n 


for i in range(n): 
t.fd(step_length) 
t.1t(step_angle) 





函数 的 第 二 部 分 很 像 polygon 的 实现 ， 但 如 果 不 修改 polygon 
an oa ae. 我 们 也 可 以 泛 化 polygon 函数 以 接受 第 三 个 参 
数 表示 圆 弧 的 角度 ， 但 那样 的 话 polygon (多 边 形 ) 就 不 是 合适 的 名 称 
T! 所 以 ,我们 将 这 个 更 泛 化 的 函数 称 为 polyline (多 边线 ) : 
def polyline(t, n, length, angle): 
for i in range(n): 


t.fd(length) 
t.1t(angle) 





现在 我 们 可 以 重 写 polygon 和 arc ， 让 它们 调用 polyline : 


def polygon(t, n, length): 
angle = 360.0 / n 
polyline(t, n, length, angle) 


def arc(t, r, angle): 
arc_length = 2 * math.pi * r * angle / 360 
n = int(arc_length / 3) + 1 


step_length = arc_length / n 
step_angle = float(angle) / n 
polyline(t, n, step length, step angle) 





最 后 ， 我 们 可 以 重 写 circle ， 改 为 调用 arc : 


def circle(t, r): 
arc(t, r, 360) 





这 个 过 程 一 一 重新 组 织 程序 ， 以 改善 接口 ， 提 高 代码 复 用 一 一 被 称 
AE (refactoring) 。 在 这 个 例子 里 ， 我 们 注意 到 arc 和 polygon 中 
有 类 似 的 代码 ， 因 此 我 们 把 它们 的 共同 之 处 “ 重 构 出 来 ”抽取 
到 polyline 函数 中 。 





如 果 我 们 早早 计划 ， 可 能 会 直接 先 写 下 polyline ， 也 就 避免 了 重 
构 ， 但 实际 上 在 工程 开始 时 我 们 往往 并 没有 足够 的 信息 去 完美 设计 所 有 
的 接口 。 开 始 编码 之 后 ， 你 会 更 了 解 面 对 的 问题 。 有 时 候 ， 重 构 正 意味 
着 你 在 编程 中 掌握 了 一 些 新 的 东西 。 











48 一 个 开发 计划 





开发 计划 (development plan) 是 写 程序 的 过 程 。 本 章 的 案例 分 析 
中 ， 我 们 使 用 的 过 程 是 “封装 和 泛 化 >”。 这 个 过 程 的 具体 步骤 是 : 





1. 最 开始 写 一 些小 程序 ， 而 不 需要 函数 定义 。 


2. 一 旦 程序 成 功 运 行 ， 识 别 出 其 中 一 段 完 整 的 部 分 ， 将 它 封 装 到 
一 个 函数 中 ， 并 加 以 命名 。 


3. 泛 化 这 个 函数 ， 添 加 合适 的 形 参 。 


4. 重复 步骤 1 到 步骤 3， 直 到 得 到 一 组 可 行 的 函数 。 复 制 粘贴 代 
码 ， 以 避免 重复 输入 《以 及 重复 调试 ) 。 


5. 寻找 可 以 使 用 重 构 来 改善 程序 的 机 会 。 例 如 ， 如 果 发 现 程序 中 
几 处 地 方 有 相似 的 代码 ， 可 以 考虑 将 它们 抽取 出 来 做 一 个 合适 的 通用 函 
数 。 


这 个 过 程 也 有 一 些 缺 点 一 “我 们 会 在 后 面 看 到 其 他 方式 一 但 如 果 
在 开始 编程 时 不 清楚 如 何 将 程序 分 成 适合 的 函数 ， 这 样 做 会 带 来 帮助 。 
这 个 方法 能 让 你 一 边 开发 一 边 设计 。 

4.9 文档 字符 串 


文档 字符 串 〈docstring) 是 在 函数 开头 用 来 解释 其 接口 的 字符 串 
(Cdoc 是 “文档 ”documentation 的 缩写 ) 。 下 面 是 一 个 示例 : 


def polyline(t, n, length, angle): 
"""Draws n line segments with the given length and 
angle (in degrees) between them. t is a turtle. 


for i in range(n): 
t.fd(length) 
t.1t(angle) 








(REBT BL, RIA EN SCR AT ES AEA = S| SFR. = 5) SRB 
又 称 为 多 行 字 符 串 ， 因 为 三 引号 多 许字 符 串 跨行 表示 。 


文档 字符 串 很 简洁 ， 但 已 经 包含 了 其 他 人 需要 知道 的 关于 函数 的 基 





本 信息 。 它 简明 地 解释 了 函数 是 做 什么 的 《而 不 涉及 如 何 实现 的 细 
W) 。 它 解释 了 每 个 形 参 对 函数 行为 的 影响 效果 以 及 每 个 形 参 应 有 的 类 
型 (如果 其 类 型 并 不 显而易见 )。 





编写 这 类 文档 是 接口 设计 的 重要 部 分 。 一 个 设计 民 好 的 接口 ， 也 应 
当 很 简单 就 能 解释 清楚 ; 如 果 你 友 现 解释 一 个 函数 很 困难 ， 很 可 能 表示 
该 接口 有 改进 的 空间 。 


4.10 调试 


函数 的 接口 ， 作 用 就 像 是 函数 和 调用 者 之 间 签 订 的 一 个 合同 。 调 用 
者 同意 提供 茶 些 参数 ， 而 函数 则 同意 使 用 这 些 参数 做 茶 种 工作 。 





例如 ，polyline 需要 4 个 参数 : t 必须 是 一 个 Turtle; n 必须 是 整 
BM, length 应 当 是 个 正 数 ;而 angle 则 必须 是 一 个 数字 ， 并 且 按 照度 
数 来 理解 。 


这 些 需求 被 称 为 前 置 条 件 ， 因 为 它们 应 当 在 函数 开始 执行 之 前 就 
保证 为 真 。 相 对 地 ， 函 数 结束 的 时 候 需 要 满足 的 条 件 称 为 后 置 条 件 。 
后 置 条 件 包 含 了 函数 预期 的 效果 《如 画 出 线段 ) 以 及 任何 副作用 《如 移 
动 乌 怨 或 者 引起 其 他 改变 ) 。 





满足 前 置 条 件 是 调用 者 的 职责 。 如 果 调 用 者 违反 了 一 个 《文档 说 明 
清晰 的 ! ) 前 置 条 件 ， 因 而 导致 函数 没有 正确 运行 ， 则 bug 是 在 调用 
者 ， 而 不 在 函数 本 喘 。 








如 果 前 置 条 件 已 经 满足 ， 但 后 置 条 件 没有 满足 ， 那 么 bug 就 出 现在 








图 数 本 身 。 如 采 前 置 和 后 置 前 置 都 定义 清晰 ， 可 以 帮助 调试 。 


4.11 术语 表 


方法 (method) : 与 茶 个 对 象 相关 联 的 一 个 函数 ， 使 用 句点 表达 
式 调用 。 


循环 〈loop) : 程序 中 的 一 个 片段 ， 可 以 重复 运行 。 
封装 Cencapsulation) : 将 一 组 语句 转换 为 函数 定义 的 过 程 。 


泛 化 (generalization) : 将 一 些 不 必要 的 具体 值 〈《 如 一 个 数字 ) 和 蔡 
换 为 合适 的 通用 参数 或 变量 的 过 程 。 


关键 词 参数 (keyword argument) : 调用 函数 时 ， 附 带 了 参数 名 称 
〈 作 为 一 个 “关键 词 ? 来 使 用 ) 的 参数 。 


接口 interface) : 描述 函数 如 何 使 用 的 说 明 。 包 括 函 数 的 名 称 ， 
以 及 形 参 与 返回 值 的 说 明 。 


重 构 (refactoring) : 修改 代码 并 改善 函数 的 接口 以 及 代码 质量 的 


Wie. 
开发 计划 (development plan) : 写 程序 的 过 程 。 


文档 字符 串 〈docstring) : 在 函数 定义 开始 处 出 现 的 用 于 说 明 函 数 
接口 的 字符 串 。 


前 置 条 件 (precondition) : 在 函数 调用 开始 前 应 当 满 足 的 条 件 。 


后 置 条 件 〈postcondition) : 在 函数 调用 结束 后 应 当 满 足 的 条 件 。 
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练习 4-1 
在 http:/thinkpython2.com/code/polygon.py 下 载 本 章 的 代码 。 
1. 画 一 个 栈 图 来 显示 函数 circle(bob，radius) 运行 时 的 程序 状 
。 你 可 以 手动 计算 ， 或 者 在 代码 中 添加 一 些 print 语句 。 


or 





2. 在 4.7 节 中 的 arc 函数 并 不 准确 ， 因 为 使 用 多 边 形 模拟 近似 圆 ， 
总 是 会 在 真实 的 圆 之 外 。 因 此 ，Turtle 画 完 线 之 后 会 停 在 偏离 正确 的 目 
标 几 个 像素 的 地 方 。 我 的 解决 方案 里 展示 了 一 种 方法 可 以 减少 这 种 错误 
的 效果 。 阅 读 代 码 并 考虑 是 否 合理 。 如 果 你 自己 画图 ， 可 能 会 发 现 它 是 





如 何 生效 的 。 


练习 4-2 
适 的 通用 函数 ， 用 来 画 出 图 4-1 所 示 的 花 条 图 案 。 


写 一 组 合 
解答 : http://thinkpython2.com/code/flower.py， 男 外 也 需要 
http://thinkpython2.com/code/ polygon.py - 


a 


图 4-1 ERBI 


练习 4-3 
适 的 通用 函数 ， 用 来 画 出 图 4-2 所 示 的 图 形 。 


解答 : http://thinkpython2.com/code/pie.py。 


BEE 


图 4-2 HA 


练习 4-4 
字母 表 中 的 字母 可 以 使 用 一 些 基 本 元 素来 构成 ， 如 横 线 、 竖 线 以 及 
一 些 曲线 。 设 计 一 个 字母 表 ， 可 以 使 用 最 少 的 基本 元 素 画 出 来 ， 并 编写 








函数 来 画 出 字母 。 


你 应 当 给 每 个 字母 单独 写 一 个 函数 ， 名 称 为 draw_a 、draw_b 等 
并 把 这 些 函 数 放 到 letters .py 文件 中 。 可 以 从 
http://thinkpython2.com/code/typewriter.py 下 载 一 个 “ 乌 包 打字 机 ”程序 来 
帮助 测试 你 的 代码 。 


你 可 以 在 http://thinkpython2.com/code/letters.py 获 得 解答 ， 男 外 也 需 
要 http://thinkpython2.com/ code/polygon.py。 


练习 4-5 


在 http:/en.wikipedia.org/wikiSpiral 疝 读 关 于 螺旋 线 (spiral) 的 信 
Is 接着 编写 一 段 程序 来 男 出 阿 基 米 德 螺旋 《或 者 其 他 的 某 种 螺旋 





解答 : http://thinkpython2.com/code/spiral.py。 


第 5 革 FAEN 





本 章 的 主要 话题 是 if 表达 式 ， 它 根据 程序 的 状态 执行 不 同 的 代 
码 。 但 首先 我 想 要 介绍 两 个 新 操作 符 ， 向 下 取 整 除法 操作 符 和 求 模 操作 
符 。 


5.1 问 下 取 整 除法 操作 符 和 求 模 操 作 符 
向 下 取 整 除法 操作 符 〈// 对 两 个 数 进行 除法 运算 ， 并 向 下 取 整 


得 到 一 个 整数 。 例 如 ,假设 一 个 电影 的 播放 时 长 为 105 分 钟 ， 你 可 能 会 
想 知道 按 小 时 算 这 是 多 长 。 传 统 的 除法 会 得 到 一 个 浮 点 数 : 





>>> minutes = 105 
>>> minutes / 60 
1.75 








(Ae, BANE S DNS IFA A DBO. I REE, MW 
弃 小 数 部 分 ， 得 到 整数 的 小 时 数 : 
>>> minutes = 165 


>>> hours = minutes // 60 
>>> hours 





要 求 得 余数 ， 可 以 从 分 钟 数 中 减 去 1 小 时 : 


>>> remainder = minutes - hours * 60 
>>> remainder 
45 





另 一 种 办 法 是 使 用 求 模 操作 符 (%) 将 两 个 数 相 除 ， 得 到 余数 : 


>>> remainder = minutes % 60 
>>> remainder 
45 





求 模 操作 符 其 实 有 很 多 实际 用 途 。 例 如 ， 可 以 用 它 来 检测 一 个 数 是 
不 是 另 一 个 的 倍数 一 如 果 x % y 是 0， 则 x 可 以 被 y 整除 。 


另外 ， 也 可 以 用 它 来 获取 一 个 数 后 一 位 或 后 几 位 数字 。 例 如 ，xX % 
16 可 以 得 到 x 的 个 位 数 (10 进 制 ) 。 类 似 地 ，x % 100 可 以 获得 最 后 
两 位 数 。 





如 果 使 用 的 是 Python 2， 除 法 机 制 会 有 所 不 同 。 除 法 操作 符 (/) 在 
两 个 操作 数 都 是 整数 的 情况 下 ， 实 际 进行 的 是 疝 下 取 整 除法 操作 ， 而 当 
两 个 操作 数 中 有 一 个 是 浮 后 数 时 ， 则 进行 的 是 浮 点 数 除法 。 





5.2 APARAIA TA 


布尔 表达 式 是 值 为 真 或 假 的 表达 式 。 下 面 的 例子 中 使 用 了 == 操作 


符 ， 来 比较 两 个 操作 对 象 是 否 相等 。 如 果 相 等 ， 则 得 True ， 否 则 


是 False : 








True 和 False 是 类 型 bool 的 两 个 特殊 值 : 它们 不 是 字符 串 : 


>>> type(True) 
<class 'bool'> 
>>> type(False) 
<class 'bool'> 





== 操作 符 是 一 个 关系 操作 符 ;其 他 的 关系 操作 符 有 : 


x 不 等 于 y 

x 比 y 大 

x 比 y 小 

x 大 于 或 等 于 y 


x 小 于 或 等 于 y 





虽然 你 可 能 对 这 些 操作 已 经 熟悉 ， 但 是 Python 的 符号 和 数学 


学 符号 还 
是 有 些 区 别 的 。 最 常见 的 错误 是 使 用 单 等 号 (= 〉 而 不 是 双 等 号 〈= 





) 。 请 记 住 = 是 一 个 赋值 操作 符 ， 而 == 是 一 个 关系 操作 符 。 为 外 ， 不 存 
在 =< 或 者 => 这 样 的 操作 符 。 


5.3 HIRREN 


逻辑 操作 符 有 3 个 : and. or 和 not 。 这 些 操作 符 的 语义 (意义 ) 
和 它们 在 英语 中 的 意思 差不多 。 例 如 ，x > 8 and x < 10 只 有 当 x th 
OAH. 比 10 小 时 才 为 真 。 





n%2 == 6 or n%3 ==8 ， 当 其 中 任意 一 个 条 件 为 真 时 为 真 ， 也 就 
是 说 ， 数 n 可 以 被 2 或 3 整除 都 可 以 。 





最 后 ，not 操作 符 可 以 否定 一 个 布尔 表达 式 ， 所 以 not (x > y) 
在 x > y 为 假 时 为 真 ， 即 当 x 小 于 等 于 y 时 真 。 





严格 地 说 ， 逻 辑 操 作 符 的 操作 对 象 应 该 都 是 布尔 表达 式 ， 但 是 
Python 并 不 那么 严格 。 任 何 非 0 的 数 都 被 解释 为 True 。 


>>> 42 and True 
True 





这 种 灵活 性 可 能 会 很 有 有 用， 但 有 时 候 也 会 带 来 一 些小 困惑 。 你 可 能 
应 该 避免 使 用 它 《 除 非 你 很 确切 地 知道 自己 在 做 什么 ) 。 


5.4 条 件 执 行 


为 了 编写 有 用 的 程序 ， 我 们 几乎 总 是 需要 检查 条 件 并 据 此 改变 程序 
的 行为 的 能 力 。 条 件 语句 给 了 我 们 这 种 能 力 。 最 简单 的 形式 是 if 表达 
式 : 





if x > @: 
print('x is positive') 





if 之 后 的 布尔 表达 式 被 称 为 条 件 (condition〉。 如 果 它 为 真 ， 则 
之 后 缩 进 的 语句 会 运行 。 否 则 ， 什 么 都 不 发 生 。 








if 表达 式 的 结构 和 函数 定义 一 样 : 一 个 语句 头 ， 接 着 是 缩 进 的 语 
句 体 。 这 种 类 型 的 语句 称 为 复合 语句 。 





语句 体 中 出 现 的 语句 数量 并 没有 限制 ， 但 是 最 少 需要 一 行 。 偶 尔 可 
能 会 遇 到 需要 一 个 语句 体 什 么 都 不 做 〈 通 常 是 标记 一 个 你 还 没有 来 得 及 
写 的 代码 的 位 置 ) 。 这 个 时 候 ， 可 以 使 用 pass 语句 。pass 语句 什么 都 
不 做 。 























# TODO: 需要 处 理 负 值 的 情况 ! 











5.5 选择 执行 


if 语句 的 第 二 种 形式 是 选择 执行 ， 这 种 形式 下 ， 有 两 种 可 能 ， 


而 if 的 条 件 决 定 哪 一 种 运行 。 语 法 看 起 来 是 这 样 的 : 


if x%2 == 
print('x is even') 
else: 


print('x is odd') 





如 果 x 除 以 2 的 余数 是 0， 则 我 们 知道 x 是 偶数 〈even) ， 并 且 程 序 
会 显示 合适 的 消 轧 even' 。 如 果 条 件 为 假 ， 则 第 二 段 语 句 会 运行 。 因 为 
条 件 必定 是 真 假 之 一 ， 所 以 必然 只 会 有 一 段 语句 运行 。 这 两 段 不 同 的 语 
句 称 为 分 文 (branch〉， 因 为 它们 是 程序 执行 流程 中 的 两 个 支流 。 











5.6 条件 链 


有 时 候 有 超过 两 种 的 可 能 ， 所 以 我 们 需要 更 多 的 分 文 。 表 达 这 种 计 
算 的 一 种 方式 是 条 件 链 (chained conditional) : 


if x < y: 

print('x is less than y') 
elif x > y: 

print('x is greater than y') 


else: 
print('x and y are equal’) 





elif 是 “else if ”的 缩写 。 和 之 前 一 样 ， 只 有 一 个 分 支 会 运行 。elif 
语句 的 数量 没有 限制 。 如 果 有 一 个 else 语句 ， 则 它 必 须 放 在 最 后 。 但 


也 可 以 没有 else if). 


if choice == 'a': 
draw_a() 

elif choice == 'b': 
draw_b() 

elif choice == 'c': 


draw_c() 





每 个 条 件 都 按 顺 序 检查 。 如 果 第 一 个 是 false， 则 检查 下 一 个 ， 依 此 
类 推 。 如 果 有 一 个 条 件 为 真 ， 则 运行 相应 的 分 文 ， 而 整个 语句 结束 。 即 
使 有 多 个 条 件 为 真 ， 也 只 有 第 一 个 为 真 的 分 文 会 运行 。 


Ey aS | 


条 件 判断 可 以 再 税 套 条 件 判断 。 我 们 可 以 修改 前 一 节 中 的 示例 ， 如 
下 : 


if x == y 
print('x and y are equal') 
else: 
if x< y: 
print('x is less than y') 


else: 
print('x is greater than y') 





SM IR PE A) LTP So FPS SC AT AEA 
第 二 个 分 支 则 包含 了 男 一 个 if A, CARA HAM TAS. XPT St 





文 也 都 是 简单 语句 ， 虽 然 它 们 其 实 也 可 以 是 条 件 语句 。 


虽然 语句 的 缩 进 让 结构 非常 明晰 ， 但 藤 套 条 件 语句 会 很 快 随 着 内 
套 层 数 增多 而 变 得 非常 难以 阅读 。 应 该 尽量 避免 它 。 
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TEL AS) te A) ERNE PB Ps 


if ð < x: 
if x < 10: 
print('x is a positive single-digit number. ') 





print 语句 只 有 在 两 个 条 件 语句 都 通过 时 才 运 行 ， 所 以 我 们 可 以 使 
Hand 操作 符 达 到 相同 的 效果 : 


if ð < x and x < 10: 
print('x is a positive single-digit number. ') 





对 于 这 种 类 型 的 条 件 ，Python 还 提供 了 一 个 更 简洁 的 语法 : 


if @< x < 10: 
print('x is a positive single-digit number. ') 





5.8 递归 


六 数 调用 男 外 一 个 函数 是 合法 的 ， 函数 调用 自己 也 是 合法 的 。 这 样 
做 有 什么 好 处 可 能 还 不 明显 ， 但 它 其 实 是 程序 能 做 的 最 神奇 的 事情 之 
。 例 如 ， 考 虑 下 面 的 函数 : 








def countdown(n): 
if n <= @: 
print('Blastoff!") 
else: 
print(n) 


countdown(n - 1) 





如 果 n 是 0 或 负数 ， 它 会 输出 单词 “Blastoff!*"， 其 他 情况 下 ， 它 会 输 
出 n ， 并 调用 一 个 名 为 countdown 的 函数 一 一 它 自己 一 一 并 传 入 实 参 n- 
1 。 


我 们 调用 这 个 函数 时 会 及 生 什么 ? 


>>> countdown(3) 





countdown 的 执行 从 n=3 开始 ， 因 为 n 比 0 大 ， 所 以 会 输出 3， 并 接 
着 调用 目 己 .……. 


countdown 的 执行 从 n=2 开始 ， 因 为 n 比 0 大 ， 所 以 会 输出 2， 
并 接着 调用 上 自己 .……. 


countdown 的 执行 从 n=1 开始 ， 因 为 n 比 0 大 ， 所 以 会 输出 


1， 并 接着 调用 自己 .….…… 


countdown 的 执行 从 n=8 开始 ， 因 为 n 不 比 0 大 ， 所 以 会 
输出 单词 “Blastoff!'”， 并 返回 。 


接收 n=1 的 函数 countdown 返回 。 
接收 n=2 的 函数 countdown 返回 。 
接收 n=3 的 函数 countdown 返回 。 


然后 束 会 到 了 __main__ 函数 。 所 以 ， 全 部 的 输出 如 下 : 


POU 


lastoff! 


调用 自己 的 函数 称 为 递归 的 (recursive) 函数 ， 这 个 执行 的 过 程 叫 
作 递 归 Crecursion) 。 


另外 举 一 个 例子 ， 我 们 可 以 写 一 个 函数 打印 某 个 字符 串 n 次 。 


def print_n(s, n): 
if n <= @: 
return 
print(s) 


print_n(s, n-1) 








如 果 n <= 0, return 语句 会 直接 退出 当前 函数 。 执 行 流程 会 立即 
返回 到 调用 者 ， 之 后 的 语句 不 会 运行 。 


国 数 另外 的 部 分 和 countdown 类 似 : 如 果 n 大 于 0， 它 会 打印 s 并 
且 调 用 自己 ， 以 再 进行 n -1 次 显示 s 的 操作 。 所 以 输出 的 行 数 是 1+(n 
-1) ， 也 就 是 n 。 
对 于 这 样 简单 的 例子 来 说 ， 可 能 使 用 for 循环 会 更 容易 。 但 我 们 会 


在 后 面 见 到 一 些 示 例 ， 使 用 for 循环 很 难 写 ， 但 使 用 递归 则 会 很 简单 ， 
所 以 早早 开始 了 解 递 归 是 件 好 事 。 


5.9 递归 函数 的 栈 图 


在 3.10 节 中 ， 我 们 使 用 一 个 栈 图 来 表示 程序 在 进行 函数 调用 时 的 状 
态 。 同 样 的 栈 图 ， 可 以 用 来 帮助 我 们 解释 递归 函数 。 


一 个 函数 每 次 被 调用 时 ，Python 会 创建 一 个 帧 (function frame) ， 
来 包含 函数 的 局 部 变量 和 人 参数。 对 于 递归 函数 ， 栈 上 可 能 同时 存在 多 个 
函数 帧 。 








图 5-1 展 示 了 countdown 函数 在 n=3 调用 时 的 栈 图 。 


mn 


countdown n—>3 
countdown n—>2 
countdown n 一 -> 1 


countdown ye cat © 


图 5-1 RA 


和 往常 一 样 ， 栈 的 顶端 是 _main__ 的 函数 帧 。 因 为 我 们 没有 
fE__main__ 函数 里 新 建 任何 变量 或 传 入 任何 参数 ， 所 以 它 是 空 的 。 





4 个 countdown KAMA AE Bin 值 。 最 底 端 的 栈 ， 其 n=6 ， 
被 称 为 基准 情形 (base case) 。 因 为 它 不 再 进行 递归 调用 ， 所 以 后 面 没 
有 其 他 函数 帧 了 。 





作为 练习 ， 为 函数 print_n 画 一 个 栈 图 ， 其 调用 实 参 是 s = 
'Hello' 和 n=2 。 然 后 写 一 个 函数 do_n ， 接 受 一 个 函 ae 
Fn 作为 形 参 。 它 会 调用 给 定 的 函数 n 次 。 





5.10 无限 递归 


如 果 一 个 递归 永远 达 不 到 基准 情形 ， 则 它 会 永远 继续 递归 调用 ， 而 





程序 也 永 不 停止 。 这 个 现象 被 称 为 无 限 递归 ， 而 它 并 不 是 个 好 主意 。 
下 面 是 一 个 会 引起 无 限 递归 的 最 简单 函数 : 


def recurse(): 
recurse() 





在 大 多 数 程序 环境 中 ， 无 限 递归 的 函数 并 不 会 真 的 永远 执行 
Python 会 在 递归 深度 到 达 上 限时 报告 一 个 出 错 消 息 : 
File "<stdin>", line 2, in recurse 


File "<stdin>", line 2, in recurse 
File "<stdin>", line 2, in recurse 


File "<stdin>", line 2, in recurse 
RuntimeError: Maximum recursion depth exceeded 





这 个 调用 回溯 比 上 一 章 看 到 的 要 大 一 些 。 当 这 个 错误 发 生 时 ， 栈 上 
已 经 有 1000 个 recurse W y ! 





如 果 你 不 小 必 写 出 了 一 个 无 限 循环 ， 请 复查 上 自己 的 函数 ， 确 认 里 面 
至 少 有 一 ae 如 果 已 经 有 了 一 个 基准 情形 ， 检 
但 是 否 已 经 确保 在 运行 时 能 达到 它 。 





5.11 键盘 输入 


目前 为 止 我 们 写 过 的 程序 都 还 不 能 接收 用 户 的 输入 。 它 们 只 能 每 次 
做 相同 的 事情 。 


Python 提供 了 一 个 内 置 函 数 input 来 从 键盘 获取 输入 并 等 待 用 户 输 
入 一 些 东 西 。 当 用 户 按 下 回 车 键 ， 程 序 会 恢复 运行 ， 而 且 input 则 通过 
字符 串 形式 返回 用 户 输入 的 内 容 。 在 Python 2 里 ， 这 个 函数 叫 


raw_input 。 





>>> text = input() 
Whate are you waiting for? 
>>> text 


Whate are you waiting for? 





在 从 用 户 那 里 获得 输入 之 前 ， 最 好 打印 一 个 提示 信息 ， 告 诉 用户 希 
望 他 们 输入 什么 。raw_input 函数 可 以 接受 一 个 参数 作为 提示 : 





>>> name = input('What...is your name?\n') 
What...is your name? 

Authur, King of the Britons! 

>>> name 

Authur, King of the Britons! 








提示 信息 最 后 的 \n 表示 一 个 换行 符 ， 它 是 会 引起 输出 显示 换行 的 








特殊 字符。 这 也 是 为 何 用 户 的 输入 显示 在 提示 信息 的 下 一 行 的 原因 。 


如 果 和 希望 用 户 输 入 一 个 整数 ， 可 以 尝试 将 输入 值 转换 为 int : 


>>> prompt = 'What...is the airspeed velocity of an unladen swallow?\n' 
>>> speed = input(prompt) 
What...is the airspeed velocity of an unladen swallow? 


42 
>>> int(speed) 


42 





但 如 果 用 户 输 入 不 是 数字 的 话 ， 会 得 到 错误 : 


>>> speed = input(prompt) 

What...is the airspeed velocity of an unladen swallow? 
What do you mean, an African or a European swallow? 
>>> int(speed) 


ValueError: invalid literal for int() with base 10 





后 面 我 们 会 看 到 如 何 处 理 这 种 错误 。 


5.12 调试 





当 发 生 语 法 错误 和 运 4 J 时 错误 时 ， 出 错 消息 包含 了 大 量 的 信息 ， 但 
有 了 时候 反而 会 信息 过 量 。 最 有 用 的 信息 是 














。 错误 的 类 型 ; 
。 发 生 错 误 的 地 方 。 

E E 
误 很 难处 理 ， 因 为 空格 和 制 表 符 都 是 不 可 见 的 ， 我 们 已 经 习惯 于 忽视 





们 。 


>>> X 


>> y= 
File "<stdin>", line 1 
y=6 


N 


IndentationError: unexpected indent 





这 个 例子 中 ， 问 题 的 原因 是 第 二 行 多 缩 进 了 一 个 空格 。 但 出 错 消 恩 
指 问 的 是 y ， 容 易 误 导 。 总 的 来 说， 出 错 消息 会 告诉 我 们 发 现 错误 的 地 
址 ， 但 真正 发 生 的 地 方 可 能 在 更 前 面 的 代码 中 ， 有 时 候 甚至 在 前 一 行 。 





运行 时 错误 也 是 如 此 。 假 设 你 想 要 按照 分 贝 来 计算 信 噪 比 。 公 式 
征 SNR db ` = 10 lg(P signal /P noise )° 在 Python 中 ， 你 可 能 会 这 么 写 : 


import math 

signal power = 9 

noise power = 10 

ratio = signal_power // noise power 
decibels = 10 * math.1log1@(ratio) 
print(decibels) 





EZTAN ETN, SARAH: 





Traceback (most recent call last): 
File "snr.py", line 5, in ? 
decibels = 10 * math.1log10(ratio) 
ValueError: math domain error 


pO 


出 错 消 恩 指 疝 第 5 行 ， 但 那 一 行 其 实 没有 什么 错误 。 要 找到 真正 的 
错误 ， 可 能 需要 打印 出 ratio 的 值 ， 结 果 你 会 发 现 是 0(。 问 题 出 在 第 4 
行 ， 这 里 使 用 了 向 下 取 整 除法 而 不 是 浮 点 数 除法 。 








你 应 该 花 一 些 时 间 认 真 阅读 出 错 消息 ， 但 不 要 认为 出 错 消息 上 说 的 
每 一 样 都 对 。 


5.13 术语 表 


H) FRR (floor division) : 用 // 表示 的 操作 符 ， 用 于 将 两 个 
数 相 除 ， 并 对 结果 进行 问 下 取 整 (靠近 0 取 整 )， 得 到 整数 结 





求 模 操作 符 (modulus operator) : H% 表示 的 操作 符 ， 用 于 两 个 整 
数 ， 返 回 两 数 相 除 的 余数 。 


布尔 表达 式 (boolean expression) : 一 种 表达 式 ， 其 值 是 True 
或 False 。 


关系 操作 符 (relational operator) : 用 来 表示 两 个 操作 对 象 的 比较 
关系 的 操作 符 ， 如 下 之 一 : ==, ls, >, <, >= 和 <=。 


逻辑 操作 符 Clogical operator) : 用 来 组 合 两 个 布尔 表达 式 的 操作 
符 ， 有 3 个 : and. or 和 not 。 


条 件 语句 (conditional statement) : 依照 某 些 条 件 控 制程 序 执行 流 
程 的 语句 。 





SAF Ccondition) : 条 件 语句 中 的 布尔 表达 式 ， 由 它 诀 定 执行 哪 一 


合 语句 (compound statement) : 一 个 包 合 语句 头 和 语句 体 的 语 
句 。 语 句 头 以 冒号 C) 结尾 。 语 名 体 相 对 语句 头 缩 进 一 层 。 











ITX (branch) : 条 件 语句 中 的 一 个 可 能 性 分 支 语句 段 。 


AEA BEE] (chained conditional) : 一 种 包含 多 个 分 支 的 条 件 语 


REZA (nested conditional) : 在 其 他 条 件 语 句 的 分 支 中 出 
现 的 条 件 语句 。 


返回 语句 (return statement) : 导致 一 个 函数 立即 结束 并 返回 到 调 
用 者 的 语句 。 


递归 (recursion) : 在 当前 函数 中 调用 自己 的 过 程 。 


基准 情形 (base case) : 递归 函数 中 的 一 个 条 件 分 支 ， 里 面 不 会 再 
继续 递归 调用 o 


无 限 递归 (infinite recursion) : 没有 基准 情形 的 递归 ， 或 者 永远 无 
法 达到 基准 情形 的 分 支 的 递归 调用 。 最 终 ， 这 种 无 限 递 归 会 导致 运行 时 


HTK 0 


5.14 练习 


练习 5-1 


time 模块 提供 了 一 个 函数 ， 名 字 也 叫 time ， 它 能 返回 从 “纪元 ”起 
到 当前 的 格林 尼 治 时 间 。“ 纪 元 ?其 实 是 人 为 选 作 基准 点 的 时 间 。 在 
UNIX 系 统 中 ， 纪 元 时 间 点 是 1970 年 1 月 1 日 。 








>>> import time 


>>> time.time() 
1437746094 .5735958 





编写 一 个 脚本 ， 读 取 当 前 时 间 ， 并 转换 为 一 天 中 的 小 时 数 、 分 钟 
数 、 秒 数 ， 以 及 从 纪元 起 到 现在 的 天 数 。 


练习 5-2 


费 马 大 定理 是 说 对 于 任何 大 于 2 的 n ， 不 存在 任何 正 整 数 q 、b 和 ec 
能 够 满足 : 


a” + b” = œ 


1. 编写 一 个 函数 check_fermat ， 接 收 4 个 形 参 〈 即 a 、b 、c 和 mn 
) 并 检查 费 马 定 理 是 否 成 立 。 如 果 n 比 2 大 并 且 满 足 





a” + b” = œ 


则 程序 应 当 打 印 *“ 天 哪 ， 费 马 弄 错 了 ! ”， 人 否则 程序 应 当 打 印 “ 不 ， 
那样 不 行 ”。 





2. 编写 一 个 函数 ， 提 示 用 户 输入 a 、b 、c 和 n 的 值 ， 将 它们 转换 
为 整数 ， 并 使 用 check_fermat 来 检查 它们 是 否 违背 了 费 马 定理 。 








练习 5-3 








如 果 给 你 3 根木 棍 ， 你 可 能 可 以 将 它们 摆 成 一 个 三 角形 ， 也 可 能 不 
可 以 。 例 如 ， 如 果 一 根木 棍 的 长 度 是 12 英 寸 ， 而 其 他 两 根 都 只 有 1 英 
寸 ， 那 么 你 无 法 让 短 的 木 棍 在 中 间 相 接 。 对 于 任意 3 个 长 度 ， 有 一 个 简 
单 的 测试 可 以 检验 它们 是 否 可 能 组 成 一 个 三 角形 : 














如 休 其 中 有 任意 一 个 长 度 的 值 大 于 其 他 两 个 长 度 的 和 ， 则 你 不 能 组 
成 三 角形 。 人 否则 可 以 。《 如 宁 两 个 长 度 的 和 等 于 第 三 个 ， 则 它们 组 成 一 
个 “退化 "的 三 角 。) 


1. 编写 一 个 函数 ijs_triangle ， 接 收 3 个 整数 参数 ， 并 根据 这 组 
长 度 的 木 棍 是 售 能 组 成 三 角形 来 打印 “Yes” 或 <No”。 


2. 编写 一 个 函数 提示 用 户 输入 3 根木 棍 的 长 度 ， 将 其 转换 为 整数 ， 
FP is triangle 检查 这 些 长 度 的 木 棍 是 否 可 以 组 成 三 角形 。 


练习 5-4 


下 面 的 程序 的 输出 是 什么 ? 男 一 个 栈 图 来 显示 程序 打印 结果 的 时 候 
的 状态 。 





def recurse(n, s): 
if n == @: 
print(s) 
else: 


recurse(n-1, n+s) 


recurse(3, @) 


1. wR Rrecurse(-1, 0) 这 样 调用 这 个 函数 ， 会 发 生 什么 ? 


2. 编写 一 段 文档 字符 串 ， 同 人 解释 清楚 要 使 用 这 个 函数 主要 知道 
的 东西 “并 且 不 多 写 其 他 内 容 ) 。 


3. 接 下 来 的 练习 需要 使 用 第 4 章 描 述 的 turtle 模块 。 





练习 5-5 








阅读 下 面 的 函数 ， 并 看 看 你 能 否 弄 清楚 它 在 做 什么 (参看 第 4 半 中 
的 示例 ) 。 接 着 运行 它 ， 看 你 的 理解 是 否 正确 。 
def draw(t， rengths n): 


if n == 
return 


angle = 50 
t.fd(length*n) 
t.1t(angle) 

draw(t, length, n-1) 


t.rt(2*angle) 
draw(t, length, n-1) 
t.1t(angle) 
t.bk(length*n) 





练习 5-6 


科 赫 曲线 (Koch curve) 是 一 个 分 形 ， 它 看 起 来 像 图 5-2 所 示 。 要 


绘制 一 个 长 度 为 x 的 科 赫 曲线 ， 你 只 需要 做 : 
1. 绘制 长 度 为 x /3 的 科 赫 曲线 。 
2. 向 左 转 60。。 
3. 绘制 长 度 为 x/3 的 科 赫 曲线 。 
4. 同 石 转 120°。 
5. 绘制 长 度 为 x /3 的 科 赫 曲线 。 
6. 向 左 转 60。。 


7. 绘制 长 度 为 x /3 的 科 赫 曲线 。 





图 5-2 ”一 个 科 赫 曲线 


当 x 比 3 小 的 时 候 例 外 : 在 那 种 情况 下 ， 你 可 以 直接 绘制 一 个 长 度 
为 x 的 直线 。 


1. 编写 一 个 函数 Koch ， 接 收 一 个 Turtle 以 及 一 个 长 度 作 为 形 参 ， 
并 使 用 Turtle 绘 制 指 定 长 度 的 科 赫 曲线 。 


2. 编写 一 个 函数 snowflake ， 绘 制 3 条 科 赤 曲线， 组 成 一 个 雪花 形 
状 。 解 答 : http://thinkpython2.com/code/koch.py。 


3. 科 赫 曲线 可 以 用 几 种 方法 泛 化 。 参 看 
http://en.wikipedia.org/wiki/Koch_snowflake 中 的 例子 ， 并 实现 你 最 喜欢 
Signe 





第 6 章 有 返回 值 的 函数 


我 们 用 过 的 很 多 Python 函数 〈 如 数学 函数 ) 都 会 产生 返回 值 。 但 
是 ， 到 目前 为 止 我们 写 的 函数 都 是 没有 返回 值 的 : 它们 只 产生 一 个 效 
末 ， 如 打印 某 些 值 或 者 移动 乌龟 ， 但 是 并 不 返回 值 。 在 本 章 中 你 将 学 会 
如 何 写 有 返回 值 的 函数 。 








6.1 返回 值 


调用 函数 会 产生 一 个 返回 值 ， 我 们 一 般 会 将 它 赋值 给 一 个 变量 或 者 
用 作 表 达 式 的 组 成 部 分 


e = math.exp(1.@) 
height = radius * math.sin(radians) 








目前 为 止 我 们 写 的 函数 都 是 无 返回 值 的 函数 。 用 通俗 的 话说 ， 它 们 
没有 返回 值 ， 用 更 精确 的 话说 ， 它 们 返回 的 值 是 None 。 


本 章 中 ， 我 们 会 〈 终 于 ) 写 一 些 有 返回 值 函数 。 第 一 个 例子 是 area 
， 用 于 计算 给 定 半径 的 圆 的 面积 











def area(radius): 
a = math.pi * radius**2 
return a 


pO 


之 前 我 们 已 经 见 过 return 语句 ， 但 在 有 返回 值 函 数 中 ，return 语 
名 包含 了 一 个 表达 式 。 这 个 语句 的 意思 是 :“ 立 即 从 这 个 函数 中 返回 ， 
并 使 用 后 面 的 表达 式 作为 返回 值 。” 表 达 式 可 以 任意 复杂 ， 所 以 我 们 可 
以 把 这 个 函数 写 得 更 紧凑 : 


def area(radius): 
return math.pi * radius**2 





AFH, RA Fa 这 样 的 临时 变量 Fa Se LE Vd A BE ZED o 


有 时 候 函 数 中 针对 不 同 的 条 件 分 文 ， 各 有 各 的 返回 语句 会 很 有 用 
处 : 


def absolute _ value(X) : 
if x < 0: 
return -x 
else: 


return x 





因为 return 语句 分 别 在 不 同 的 分 支 中 ， 只 有 一 个 运行 。 


一 旦 return 语句 运行 ， 当 前 的 函数 就 会 终结 ， 后 面 的 语句 不 会 执 
行 。return 语句 之 后 的 代码 ， 或 者 在 其 他 程序 流程 永远 不 可 能 达到 的 
地 方 的 代码 ， 称 为 无 效 代 人 码 (dead code) 。 


在 有 返回 函数 中 ， 保 证 每 个 可 能 执行 路 径 上 都 会 遇 到 return if 
句 ， 是 个 很 好 的 主意 。 例 如 : 


def absolute value(Xx) : 
if x < 0: 
return -x 
if x > 0: 


return x 








这 个 函数 并 不 正确 ， 因 为 如 果 x 正好 是 0， 则 两 个 条 件 都 不 为 true， 
则 此 时 函数 会 没有 遇 到 return 语句 就 终结 了 。 如 果 执 行 流程 到 了 函数 
的 结尾 ， 返 回 值 是 None ， 它 并 不 是 0 的 绝对 值 。 





>>> absolute_value(@) 
None 





顺便 说 一 下 ，Python 内 置 提 供 了 计算 绝对 值 的 函数 abs 。 


作为 练习 ， 写 一 个 compare 函数 ， 带 两 个 参数 x 和 y ， 如 果 x > y 
， 返 回 1， 如 果 x == y ， 返 回 0， 如 果 x《 y ， 返 回 -1。 


6.2 Peer 


当 你 写 更 复杂 的 函数 时 ， 可 能 会 发 现 需要 更 多 的 时 间 来 调试 。 为 了 
对 应 不 断 增加 的 程序 复杂 度 ， 你 可 能 会 想 答 试 一 下 称 为 增 量 开发 的 过 





程 。 增 量 开发 的 目标 是 通过 每 次 只 增加 和 测试 一 小 部 分 代码 ， 来 避免 长 
时 间 的 调试 过 程 。 


例如 ， 假 设 你 想 要 碍 找 两 点 之 间 的 距离 ， 给 定 坐 标 xi,y1) 和 (CK，，) 
)。 根 据 毕 达 哥 拉 斯 定理 ， 距 离 是 : 





距离 = / ( TT — T1 Ss + { Y2 — Yı \? 


第 一 步 考 虑 Python 中 distance 函数 应 该 是 什么 样子 的 。 换 句 话 
ii, MA GEZ) 是 什么 ?输出 (返回 值 ) 是 什么 ? 


在 这 个 例子 中 ， 输 入 是 两 个 点 ， 并 可 以 用 4 个 数字 来 表示 。 返 回 值 
古 距 离 ， 它 用 一 个 浮 点 数 表 示 。 





现在 就 可 以 写 出 函数 的 轮廓 了 : 


def distance(x1, y1, x2, y2): 
return 0.0 











显然 ， 现 在 这 个 版 本 计算 的 并 不 是 距离 ， 它 总 是 返回 0。 但 它 是 语 
法 结构 正确 的 ， 并 且 能 运行 ， 即 意味 着 你 可 以 在 继续 开发 更 复杂 的 功能 
之 前 对 它 进行 初步 的 测试 。 





要 测试 这 个 新 函数 ， 使 用 样本 参数 调用 它 : 





>>> distance(1, 2, 4, 6) 
0.0 


pO 


我 选择 这 些 值 ， 因 为 这 样 两 个 点 之 间 ， 横 疝 距 离 是 3， 纵 向 距离 是 
4; Witte, ARES (3-4-5 直 角 三 角形 的 斜 边 )。 妆 测试 一 个 函数 时 ， 
事先 知道 正确 的 结果 是 很 有 用 的 。 


到 这 个 时 候 我 们 已 经 确认 函数 的 语法 形式 是 正确 的 ， 紧 接着 可 以 给 
函数 体 添加 代码 了 。 合 理 的 下 一 个 步骤 是 找到 距离 着 x>-X1 和 y，。-y1。 
下 一 版 本 的 函数 将 这 两 个 距离 差 保存 到 临时 变量 中 并 打印 出 来 。 





def distance(x1, y1, x2, y2): 
dx = x2 - x1 
dy = y2 - y1 
print('dx is', dx) 
print('dy is', dy) 


return 0.0 








如 果 函 数 正确 执行 ， 应 该 会 显示 ‘dx is 3’ 和 “dy is 4. WR 
确实 如 此 ， 我 们 就 可 以 确认 函数 正确 地 获得 了 实 参 ， 并 正确 地 执行 了 第 
一 步 计算 。 如 果 不 是 如 此 ， 则 只 有 几 行 代码 需要 检查 。 








下 一 步 我 们 计算 dx 和 dy 的 平方 和 : 





def distance(x1, y1, x2, y2): 
dx = x2 - x1 
dy = y2 - y1 
dsquared = dx**2 + dy**2 
print('dsquared is: ', dsquared) 
return 0.0 


[L CR 


同样 地 ， 你 可 以 在 这 里 再 运行 一 裔 程序 ， 并 检查 输出 (应 该 是 
25) 。 最 后 ， 可 以 使 用 math.sqrt 来 计算 并 返回 结 


def distance(x1, y1, x2, y2): 
dx = x2 - x1 
dy = y2 - y1 
dsquared = dx**2 + dy**2 
result = math.sqrt(dsquared) 


return result 





如 果 这 个 函数 运行 正确 ， 那 么 你 的 任务 就 完成 了 。 否 则 ， 你 可 能 
要 在 return 语句 之 前 打印 出 result 的 值 。 


最 终 版 本 的 函数 运行 时 并 不 打印 任何 东西 ， 它 只 会 返回 一 个 值 。 我 
们 之 前 写 的 print 语句 在 调试 时 很 有 用 ,但 一 旦 你 的 函数 编写 正确 ， 残 
应 该 删除 挥 它们 。 这 种 代码 称 为 脚手架 代码 (scaffolding〉， 因 为 它们 
在 构建 程序 的 过 程 中 很 有 用 ， 但 并 不 是 最 终 产 品 的 一 部 分 。 








开始 的 时 候 ， 应 当 每 次 只 添加 一 到 两 行 代码 。 当 你 获得 更 多 经 验 之 
后 ， 就 会 发现 目 己 可 以 编写 和 调试 更 多 的 代码 了 。 不 论 如 何 ， 增 量 开 友 
都 能 帮 你 节省 大 量 的 调试 时 间 。 





个 过 程 有 以 下 几 个 关键 后 。 





1. 以 一 个 可 以 正确 运行 的 程序 开始 ， 每 次 只 做 小 的 增 量 修 改 。 如 
果 在 任意 时 刻 发 现 错误 ， 你 都 应 当知 道 错 在 哪里 。 








2. 使 用 临时 变量 保存 计算 的 中 间 结 果 ， 你 可 以 显示 和 检查 它们 。 





3. 一 旦 整个 程序 完成 ， 你 可 能 会 想 要 删除 掉 某 些 脚 手 架 代码 或 者 
把 多 个 语句 综合 到 一 个 复杂 表达 式 中 。 但 只 在 不 会 增加 代码 阅读 的 难 拔 
时 才 应 该 那么 做 。 





作为 练习 ， 使 用 增 量 开 发 来 编写 一 个 函数 hypotenuse ， 给 定 直 角 
三 角形 的 另外 两 个 直角 边 的 长 度 时 ， 它 返回 斜 边 的 长 度 。 开 发 过 程 中 ， 
记录 每 一 步 的 情况 。 


6.3 组合 
你 可 能 已 经 想到 ， 在 一 个 函数 中 可 以 调用 另外 一 个 函数 。 作 为 示 


例 ， 我 们 会 写 一 个 函数 ， 筷 接收 两 个 点 ， 圆 心 和 圆周 上 的 一 点 ， 并 计算 
册 的 面积 。 





假设 圆心 保存 在 变量 xc 和 yc 中 ， 而 圆周 上 的 点 保存 在 xp 和 yp 
上 。 第 一 步 是 算出 圆 的 半径 ， 也 就 是 这 两 个 点 的 距离 。 我 们 刚才 已 经 写 
了 一 个 函数 ，distance ， 正 好 有 这 个 功能 : 





radius = distance(xc, yc, xp, yp) 





第 二 步 是 使 用 上 一 步 算出 来 的 半径 来 计算 圆 的 面积 。 我 们 刚才 也 写 
了 这 个 函数 : 


result = area(radius) 


将 这 两 步 封装 成 一 个 函数 ， 我 们 得 到 : 


def circle_area(xc, yc, xp, yp): 
radius = distance(xc, yc, xp, yp) 
result = area(radius) 
return result 











临时 变量 radius 和 result 在 开发 和 调试 时 有 用 ， 可 一 旦 程序 已 经 
可 以 正确 和 运行， 我 们 就 可 以 使 用 函数 组 合 来 简化 函数 : 





def circle area(xc, yc, Xp, yp): 
return area(distance(xc, yc, xp, yp)) 





6.4 布尔 函数 


冰 数 可 以 返回 布尔 值 ， 这 样 可 以 很 方便 地 隐藏 函数 内 复杂 的 检测 。 
例如 : 





def is divisible(x, y): 
if x % y == 0: 
return True 
else: 
return False 


通常 布尔 函数 的 命名 都 类 似 于 是 / 否 的 问 名 。is divisible 返回 
True 或 False ， 表 示 x 是 否 可 以 被 y 整除 。 








这 里 是 一 个 例子 : 


>>> is_divisible(6, 4) 
False 
>>> is_divisible(6, 3) 
True 





== 操作 符 的 结果 是 一 个 布尔 值 ， 所 以 我 们 可 以 把 这 个 函数 写 得 更 
MAB: 


def is divisible(x, y): 
return x % y == 
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if is divisible(x, y): 
print('x is divisible by y') 





if is divisible(x, y) == True: 
print('x is divisible by y') 





但 这 里 多 出 来 的 比较 是 不 必要 的 。 


作为 练习 ， 写 一 个 函数 is_between(x，y，z) ， 当 xsy <z 时 ， 返 
回 True ， 其 他 情况 返回 False 。 


6.5 HRH 


至 今 为 止 ， 我 们 只 涉及 Python 的 一 个 很 小 的 子 集 ， 但 你 可 能 会 有 兴 
趣 知道 ， 这 个 子 集 已 经 是 一 个 完备 的 编程 语言 ， 也 就 是 说 ， 任 何 可 以 
计算 的 问题 ， 都 可 以 用 这 个 子 集 语 言 来 完成 。 任 何 己 有 的 程序 ， 都 可 以 
用 现在 已 经 学 会 的 语言 特性 重 写 出 来 (实际 上 ， 可 能 还 需要 一 些 命 令 来 
控制 诸如 键盘 、 鼠 标 、 光 盘 之 类 的 设备 ， 但 仅 此 而 已 ) 。 


要 证 明 这 个 论断 ， 并 不 是 简单 的 工作 。 这 个 证 明 最 早 是 由 第 一 代 计 
算 机 科学 家 之 一 阿兰 .图 灵 (Alan Turing) 完成 的 《有 人 会 争辩 他 其 实 
征 个 数学 家 ， 但 大 部 分 早期 的 计算 机 科学 家 都 是 从 数学 家 开始 的 ) 。 
此 ， 这 被 称 为 图 灵 论 题 (Turing Thesis) 。 若 想 了 解 关于 图 灵 论 题 的 更 
完整 〈 更 准确 ) 的 讨论 ， 我 推荐 Michael Sipser 的 《计算 理论 导 引 》 
(Introduction to the Theory of Computation ，Course Technology, 2012) 


— 4 , 


为 了 初步 了 解 如 何 使 用 我 们 现在 学 会 的 工具 ， 可 以 考虑 几 个 递归 定 


义 的 数学 函数 。 北 归 定 义 和 循 环 定义 有 些 相似 ， 因 为 同样 地 ， 定 义 中 都 
会 包含 要 定义 的 事物 本 身 。 真 正 的 循环 定义 往往 没什么 用 : 


vorpal: 
一 个 形容 词 ， 用 来 描述 一 个 vorpal 的 事物 。 


如 果 你 在 词典 中 看 到 这 样 的 定义 ， 可 能 会 感觉 恼 您 。 另 一 方面 ， 如 
末 你 碍 看 阶乘 函数 〈 用 ! 表 示 ) HEM, Hg A 


0!=1 


n!=n(n-1)! 


这 个 定义 说 明 0 的 阶乘 是 1， 而 任意 其 他 值 n 的 阶乘 是 n -1 AY ERE 
Dn。 


所 以 3! 是 3 乘 以 2!， 而 2! 是 2 乘 以 1!， 而 1! 是 1 乘 以 0!。 综 合 起 来 ，3! 
等 于 3 乘 以 2 乘 以 1 乘 以 1， 即 6。 








如 果 能 够 使 用 递归 定义 来 描述 一 个 事物 ， 那 么 也 可 以 使 用 Python 程 
序 来 计算 它 。 第 一 步 是 决定 使 用 什么 形 参 。 在 这 个 例子 里 ， 很 明显 函 


数 factorial 需要 一 个 整数 形 参 : 





def factorial(n): 





如 果实 参 正 好 是 0， 我 们 只 需要 直接 返回 1: 


def factorial(n): 
if n == @: 
return 1 








否则 ， 接 下 来 是 有 意思 的 地 方 ， 我 们 需要 递归 调用 函数 来 计算 n -1 
的 阶乘 ， 并 乘 Cn : 


def factorial(n): 
if n == @: 
return 1 
else: 
recurse = factorial(n-1) 


result = n * recurse 
return result 








这 个 程序 的 运行 流程 和 5.8 节 里 的 countdown 函数 类 似 。 如 果 我 们 
使 用 实 参 值 3 调用 factorial : 





因为 3 不 是 0， 我 们 使 用 第 二 个 分 文 ， 计 算 n-1 的 阶乘 .…… 
因为 2 不 是 0(， 我 们 使 用 第 二 个 分 文 ， 计 算 n-1 的 阶乘 .……. 


因为 1 不 是 0， 我 们 使 用 第 二 个 分 文 ， 计 算 n-1 的 阶乘 .…… 





因为 0 等 于 0， 我 们 使 用 第 一 个 分 文 并 返回 1， 不 再 需要 进 
行 任何 递归 调用 了 。 


返回 值 G) 乘 以 n=1 ， 结 有 果 返 回 。 


返回 值 G) 乘 以 n=2 ， 结 果 返 回 。 


返回 值 (2) 乘 以 n=3 ， 结 末 是 6， 而 这 个 结 条 就 是 整个 函数 的 返回 
值 。 





图 6-1 显 示 了 这 一 系列 函数 调用 的 栈 图 。 


rr 

6 
factorial n —> 3 recurse —> 2 result —~> 6 

2 
factorial n —> 2 recurse —~> 1 result —~> 2 

1 
factorial n —> 1 recurse —~> 1 result 一 = 1 

1 


factorial n — 0 
图 6-1 el 


结果 值 在 图 中 显示 为 沿 着 栈 向 上 回 传 。 在 每 个 帧 中 ， 返 回 值 
是 result 的 值 ， 即 n 和 recurse 的 乘积 。 


最 后 一 帧 中 ， 局 部 变量 recurse 和 result 不 存在 ， 因 为 新 建 它们 
的 分 支 并 没有 运行 。 


6.6 ”坚持 信念 





跟踪 程序 执行 的 流程 是 阅读 程序 的 一 个 办 法 ， 但 那样 很 快 就 会 陷入 


迷宫 境况 。 力 外 有 个 办 法 ， 我 称 为 “坚持 信念 ”"。 在 过 到 一 个 函数 调用 
时 ， 不 去 跟踪 执行 的 流程 ， 而 假定 函数 是 正确 工作 的 ， 能 够 返回 正确 
的 结果 。 








事实 上 ， 在 使 用 内 置 函 数 时 ， 你 已 经 在 这 样 尝试 着 坚持 信念 了 。 当 
调用 math .cos 或 math .exp 时 ， 你 并 不 去 检查 那些 函数 的 内 部 实现 。 
你 只 会 假定 它们 是 正确 的 ， 因 为 写 这 些 内 置 函 数 的 一 定 是 很 优秀 的 程序 


=] 
A 


~ O 





当 调 用 自己 写 的 函数 时 ， 这 个 道理 也 成 立 。 例 如 ， 在 6.4 节 中 ， 我 
们 写 了 is_divisible 函数 用 来 判断 一 个 数 古 否 可 以 被 力 一 个 数 整除 。 
一 旦 我 们 说 服 上 自己 认定 这 个 函数 是 正确 的 一 一 通过 检查 代码 和 测试 
就 可 以 直接 使 用 它 ， 而 不 需要 再 细 看 内 部 实现 了 。 





对 递归 函数 来 说 ， 也 是 如 此 。 当 调用 递归 函数 时 ， 不 需要 检查 执行 
的 流程 ， 你 应 该 假定 递归 调用 是 正确 的 〈 返 回 正确 的 结果 ) ， 并 问 自 
Ch: “假设 我 能 够 正确 得 到 nm -1 的 阶乘 ， 如 何 计 算 mn 的 阶乘 ? ”很 明显 你 
可 以 做 到 ， 直 接 乘 以 n 即 可 。 


当然 ， 在 还 没有 完成 函数 的 编写 时 ， 就 假设 它 能 正确 工作 ， 看 起 来 
有 些 奇 怪 ， 但 那 也 正 是 为 什么 我 称 它 为 "坚持 信念 ”的 原因 ! 


6.7 “ 另 一 个 示例 





除 阶乘 factorial 之 外 ， 最 和 常见 的 递归 数学 定义 是 韭 波 那 执 数列 
(fibonacci ) ， 其 定义 如 下 (参见 


http://en.wikipedia.org/wiki/Fibonacci number) : 


fibonacci(0) = 0 
fibonacci (1) = 1 


fibonacci (n ) = fibonacci (n - 1) + fibonacci (n - 2) 





翻译 成 Python 后 ， 看 起 来 是 这 样 : 


def fibonacci (n): 
if n == 


return 6 
elif n == 

return 1 
else: 


return fibonacci(n-1) + fibonacci(n-2) 





如 果 你 在 这 里 试图 跟踪 执行 的 流程 ， 即 使 是 很 小 的 参数 mn ， 都 会 感 
党 头 都 要 炸 了 。 但 因为 坚持 信念 ， 如 果 你 假定 两 个 递归 调用 都 正常 工 
作 ， 那 么 很 明 最 ， 把 它们 加 到 一 起 必然 得 到 正确 的 结 








6.8 ”检查 类 列 





如 果 我 们 调用 factorial 水 数 ， 并 给 定 1.5 作 为 实 参 ， 会 发 生 什 么 
呢 ? 


>>> factorial(1.5) 
RuntimeError: Maximum recursion depth exceeded 








看 起 来 像 是 无 限 递归 。 怎 么 会 这 样 ? 函数 中 有 一 个 基准 情形 
“in == 86 时。 但 如 果 n 不 是 整数 ， 我 们 就 可 能 错过 这 个 基准 情形 ， 而 
永远 递归 下 去 。 





在 第 一 个 递归 调用 中 ，n 是 0.5。 第 二 个 , n 是 -0.5。 从 此 以 后 ， 它 
会 越 来 越 小 《更 小 的 负数 ) ， 但 永远 不 会 变 成 0。 





我 们 有 两 个 选择 。 可 以 尝试 泛 化 函数 factorial ， 使 之 能 正确 处 理 
浮 点 数 ， 或 者 我 们 也 可 以 让 factorial 检查 其 实 参 的 类 型 。 第 一 个 选择 
在 数学 上 叫 作 伽 玛 函数 (gamma function) ， 它 有 些 超 出 了 本 书 的 范 
围 。 所 以 我 们 选择 第 二 个 





我 们 可 以 使 用 内 置 函 数 isinstance 来 检查 实 参 的 类 型 。 与 此 同 
时 ， 我 们 也 可 以 确保 实 参 是 正 数 : 


def factorial (n): 
if not isinstance(n, int): 
print('Factorial is only defined for integers.') 
return None 
elif n < 0: 
print('Factorial is not defined for negative integers.') 
return None 


elif n == 
return 1 
else: 
return n * factorial(n-1) 





第 一 个 基准 情形 处 理 非 整数 ， 第 二 个 处 理 负数 。 这 两 种 情况 中 ， 程 
序 打印 一 个 错误 信息 ， 并 返回 None ， 表 示 出 现 了 问题 : 





>>> factorial('fred') 

Factorial is only defined for integers. 

None 

>>> factorial(-2) 

Factorial is not defined for negative integers. 


None 





如 果 我 们 通过 了 这 两 个 测试 ， 就 能 确保 知道 n 是 正 数 或 0， 所 以 我 
们 可 以 证 明 递归 必然 终结 。 

这 个 程序 演示 了 一 个 模式 ， 它 有 时 被 称 为 守卫 (guardian) 。 前 两 
个 条 件 就 像 守 卫 一 样 ， 保 护 后 面 的 代码 ， 以 免 出 现 错误 。 和 守卫 使 得 证 明 
代码 的 正确 性 成 为 可 能 。 


在 11.3 节 中 我 们 会 看 到 一 个 更 灵活 的 方案 ， 用 以 打印 错误 信息 : 抛 
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6.9 ”调试 


将 一 个 大 程序 分 解 为 小 函数 ， 目 然而 然 地 引入 了 调试 的 检查 点 。 如 
果 一 个 函数 不 能 正常 工作 ， 可 以 考虑 3 种 可 能 性 。 





函数 获得 的 实 参 有 问题 ， 东 个 前 置 条 件 没有 达到 。 
。 函数 本 身 有 问题 ， 茶 个 后 置 条 件 没 有 达到 。 
函数 的 返回 值 有 问题 ， 或 者 使 用 的 方式 不 正确 。 





要 排除 第 一 种 可 能 ， 可 以 在 函数 开始 的 地 方 加 上 print 语句 ， 显 示 


实 参 的 值 〈 以 及 它们 的 类 型 ) 。 或 者 可 以 添加 代码 来 显 式 地 检查 前 置 条 
TF 


如 果实 参看 起 来 没 错 ， 在 每 个 return 语句 前 添加 print 语句 ， 显 
示 返 回 值 。 如 果 有 可 能 ， 手 动 检查 返回 值 。 考 虑 使 用 能 更 容易 检验 结果 
的 实 参 来 调用 函数 ， 就 像 6.2 节 中 的 那样 。 





如 果 函 数 看 起 来 正 铅 ， 检 查 调用 它 的 代码 ， 确 保 返 回 值 被 正确 使 用 
(或 者 确实 被 使 用 了 ! ) 。 


在 函数 的 开端 和 结尾 处 增加 print 语句 ， 能 帮助 我 们 更 清晰 地 了 解 
函数 的 执行 流程 。 例 如 ， 这 里 是 一 个 添加 了 print 语句 的 factorial K 
数 : 


def factorial(n): 
space = ' ' * (4 * n) 
print(space, ‘factorial’, n) 
if n == @: 
print(space, ‘returning 1') 
return 1 
else: 


recurse = factorial(n-1) 

result = n * recurse 

print(space, ‘returning’, result) 
return result 





space 是 一 个 字符 串 ， 包 舍 多 个 空格 ， 用 来 控制 得 出 内 容 的 缩 进 。 
下 面 是 调用 factorial(4) 的 结果 : 


factorial 4 
factorial 3 


factorial 2 

factorial 1 
factorial 6 
returning 1 

returning 1 

returning 2 
returning 6 
returning 24 
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脚手架 代码 需要 花费 时 间 ， 但 一 点 点 脚手架 可 以 节省 大 量 的 调试 。 
6.10 术语 表 


临时 变量 (temporary variable) : 在 复杂 计算 中 用 于 保存 中 间 计 算 
值 的 变量 。 





无 效 代 码 (dead code) : 程序 中 的 一 些 代 码 ， 永 远 不 可 能 运行 。 
常常 是 写 在 return 语句 之 后 的 代码 。 


增 量 开 发 (incremental development) : 一 个 程序 开发 计划 ， 通 过 
每 次 只 增加 少量 代码 ， 并 加 以 测试 的 步骤 ， 来 减少 调试 。 


脚手架 代码 (scaffolding) : 在 开发 过 程 中 使 用 的 ， 但 在 最 终 版 本 
中 不 需要 的 代码 。 


守卫 〈guardian) : 一 个 编程 模式 。 使 用 条 件 语句 来 检查 并 处 理 可 
能 产生 错误 的 情形 。 


6.11 练习 


练习 6-1 
为 下 面 的 程序 绘制 一 个 栈 图 。 程 序 的 输出 是 什么 ? 


b(z): 

prod = a(z, z) 
print(z, prod) 
return prod 


a(x, y): 
xX=x+1 
return x * y 


C(x, Y, Z): 


total =x+y+z 
square = b(total)**2 
return square 


X 1 
y x+1 
print c(x, y+3, x+y) 





练习 6-2 
Ackermann 函 数 ，A (m,n )， 定 义 如 下 : 
n+l if m=0 
A(m,.n) =< A(m—1,1) if m>Oandn=0 


A(m—1, A(m,n—1)) if m>Oandn>0 


#4 http://en.wikipedia.org/wiki/Ackermann_function. 2) —^ PK 


数 ack ， 计 算 Ackermann 函 数 的 值 。 使 用 你 的 函数 求 ack(3，4) 的 值 ， 
它 应 当 是 125。 对 于 很 大 的 数字 m 和 n ， 会 发 生 什么 ? 


解答 : http://thinkpython2.com/code/ackermann.py。 
练习 6-3 


回 文 是 一 个 正 同 和 逆 回 拼写 都 相同 的 单词 ， 例 
如 “noon2> 和 “redivider”。 递 归 地 说 ， 如 果 一 个 单词 第 一 个 和 最 后 一 个 字 
母 相 同 ， 并 且 中 间 是 一 个 回 文 ， 则 该 单词 是 回 文 。 





下 面 的 函数 接收 一 个 字符 串 形 参 并 返回 第 一 个 、 最 后 一 个 以 及 中 间 
的 字母 : 
def first(word): 

return word[@] 


def last(word): 
return word[ -1] 


def middle(word): 
return word[1:-1] 








在 第 8 章 中 得 看 它们 是 如 何 使 用 的 。 


1. 将 这 些 函 数 保 存 到 一 个 文件 palindrome .py 中 并 测试 它们 。 如 
果 你 使 用 一 个 包含 两 个 字母 的 字符 串 调用 middle ， 会 发 生 什 么 ? 使 用 
一 个 字母 呢 ?” 空 字符 串 呢 ? 空 字符 串 写 作 ' “并 且 不 包含 任意 字母 。 


2. 编写 一 个 函数 is_palindrome ， 接 收 一 个 字符 串 形 参 ， 并 当 它 
是 回 文 的 时 候 返 回 True ， 和 否则 返回 False 。 记 着 你 可 以 使 用 内 置 函 
数 len 来 检测 字符 串 的 长 度 。 





解答 : http://thinkpython2.com/code/palindrome_soln.py。 
练习 6-4 


我 们 说 一 个 数 a 是 b 的 乘 方 ， 如 果 a 可 以 被 b BBR, Ff Ha /b 也 是 b 
的 乘 方 。 编 写 一 个 函数 is_power 接收 形 参 a Mb, Ha 是 b WRI 
回 True 。 注 意 : 你 需要 考虑 基准 情形 。 


练习 6-5 


a 和 的 最 大 公约 数 (GCD) 是 它们 两 个 都 能 整除 的 最 大 的 数 。 








寻找 两 个 数 的 最 大 公约 数 的 方法 之 一 是 基于 如 下 观察 : 如 果 r 是 a 
除 以 b 的 余数 ， 则 gcd(a ,b ) = gcd(b ,r )。 作 为 基准 情形 ， 我 们 可 以 使 用 
gcd(a, 0)=a o 


编写 一 个 函数 gcd ， 接 收 形 参 a 和 b ， 并 返回 它们 的 最 大 公约 数 。 


鸣谢 : 这 个 练习 是 基于 Abelson 和 Sussman 的 《计算 机 程序 的 构造 和 
解释 》 Structure and Interpretation of Computer Programs ) (MITH FR 
社 ，1996) 一 书 。 


第 7 革 IBN 


本 章 讲 关 于 迭代 的 话题 。 和 迭代 即 重复 运行 一 段 代码 语句 块 的 能 
我 们 在 5.8 市 见 过 一 种 使 用 递归 来 进行 的 兴 代 ， 在 4.2 市 中 见 过 为 一 种 使 
用 for 循环 进行 的 迭代 。 在 本 半 中 我 们 将 会 看 到 使 用 while 循环 进行 的 
第 三 种 达 代 。 首 先 我 们 先进 一 步 讲 讲 变 量 赋值 的 话题 。 


7.1 重新 赋值 


你 应 当 已 经 发 现 ， 对 一 个 变量 进行 多 次 赋值 是 合法 的 。 新 的 赋值 语 
句 使 现 有 的 变量 引用 一 个 新 值 “ 并 不 再 引用 老 值 ) 。 








因为 第 一 次 显示 x 时 ， 它 的 值 是 5， 而 第 二 次 时 它 的 值 是 7。 








图 7-1 显 示 了 在 状态 图 中 ， 重 新 赋值 是 什么 样子 的 。 





图 7-1 状态 图 





在 这 里 我 想 解 释 一 个 常见 的 误区 。 因 为 Python 使 用 等 号 〈= ) 来 表 
ANIME, BURA Sha = b 这 样 的 赋值 语句 错误 理解 为 数学 中 表示 a 和 
b 相等 的 命题 。 这 样 理解 是 错误 的 。 


首先 ， 相 等 判断 是 个 对 称 的 关系 ， 而 赋值 并 不 是 。 例 如 ， 在 数学 
中 ， 如 果 a =7 那 么 7=a 。 但 是 在 Python 中 ， 语 句 a = 7 是 合法 的 ， 但 7 
a 则 是 非法 的 。 


另外 ， 在 数学 中 ， 一 个 相等 判断 的 命题 总 是 非 真 即 假 。 如 果 现在 a 
=b ， 那 么 a 总 会 等 于 b 。 在 Python 中 ， 赋 值 语句 会 让 两 个 变量 变 得 相 
等 ， 但 它们 并 不 会 总 保持 那个 状态 : 





# a 和 b 现 在 相等 了 
# a 和 b 不 再 相等 了 





第 三 行 修改 a 的 值 ， 但 是 并 不 会 修改 b 的 值 ， 所 以 它们 不 再 相等 。 





里 然 重 新 赋值 常常 很 有 用 处 ， 但 是 应 该 谨慎 使 用 。 如 果 变 量 的 值 经 
常 变 化 ， 会 导致 程序 难以 阅读 和 调试 。 


7.2 更 新 变量 





重新 赋值 的 最 常见 形式 是 更 新 ， 此 时 变量 的 新 值 依赖 于 旧 值 。 


>>>X= X+ 工 


这 个 语句 的 意思 是 “获取 x 的 当前 值 ， 加 一 ， 再 更 新 x 为 此 新 值 ”。 


如 果 和 尝试 更 新 一 个 并 不 存在 的 变量 ， 则 会 得 到 错误 ， 因 为 Python 在 
赋值 给 x 之 前 会 先 计 算 等 号 右边 的 部 分 : 





>>>x=x+1 
NameError: name 'x' is not defined 








在 更 新 变量 之 前 ， 必 须 先 对 它 进 行 初 始 化 。 通 常 通 过 一 个 简单 赋 
值 操作 来 进行 初始 化 : 


>>> x = 0 
>>>X= X+ 工 





通过 加 1 来 更 新 一 个 变量 ， 称 为 增 量 〈increment) ; 减 1 的 操作 称 
为 减 量 (decrement) 。 


7.3 while 语句 


计算 机 第 被 用 来 自动 化 重复 处 理 某 些 任务 。 重 复 执行 相 同 或 相似 的 
任务 ， 而 不 犯错 误 ， 这 是 电脑 所 擅长 于 人 之 处 。 在 计算 机 程序 中 ， 重 复 
EHEER ITIER 。 





我 们 之 前 已 经 看 到 两 个 函数 countdown 和 print_n ， 它 们 使 用 递 
归来 进行 迭代 操作 。 由 于 迭代 如 此 种 见 ，Python 提 供 了 语言 特性 来 文 持 
。 其 中 一 个 是 我 们 在 4.2 节 中 见 过 的 for 循环 语句 。 后 面 我 们 会 再 回 到 


E 
这 个 话题 。 


另 一 个 则 是 while 语句 。 下 面 是 使 用 while 语句 实现 的 countdown 
函数 : 


def countdown(n): 
while n > @: 
print(n) 
n=n-1 
print('Blastoff!') 





你 基本 上 可 以 按照 英语 来 理解 while 语句 。 它 的 意思 是 : “每 当 n 
还 大 于 0 时 ， 显 示 n 的 值 ， 并 将 n 减 1。 当 n 变 成 0 的 时 候 ， 显 示 单 记 
Blastoff!. ” 





用 更 正式 的 说 法 ， 下 面 是 while 语句 执行 的 流程 。 





1. 确定 条 件 是 真 还 是 假 。 


2. 如 果 条 件 为 假 ， 退 出 while 语句 ， 并 继续 执行 后 面 的 语句 。 

3. 如 果 条 件 为 真 ， 则 运行 while 语句 的 语句 体 ， 并 返回 第 1 步 。 

这 种 类 型 的 流程 称 为 循环 doop) ， 因 为 第 3 步 又 循环 返回 到 最 顶 
端的 第 1 步 了 。 


循环 的 语句 体 里 面 应 当 修 改 一 个 或 多 个 变量 的 值 ， 以 致 循环 的 条 件 
最 终 能 变 成 假 ， 而 退出 循环 。 人 否则 这 个 循环 会 永远 重复 下 去 ， 这 样 的 情 
况 叫 作 无 限 循环 。 计 算 机 科学 家 在 读 到 洗 友 液 的 说 明 “ 浴 抹 、 冲 洗 、 重 
复 ? 时 ， 总 会 感到 有 趣 ， 因 为 这 是 一 个 无 限 循环 。 





在 countdown 这 个 例子 里 ， 我 们 可 以 证 明 循 环 必然 终结 : 如 果 n 
是 0 或 负数 ， 访 循环 从 不 运行 。 否 则 ，n 的 值 都 会 减 小 ， 因 此 最 终 n 会 变 
成 0。 





TREMA, IFA EMA DA TOU: 


def sequence(n): 
while n != 1: 











这 个 循环 的 条 件 是 n l= 1 ， 所 以 只 要 n 还 没有 变 成 1 而 导致 条 件 变 
假 ， 循 环 就 会 一 直 进 行 下 去 。 


每 一 个 循环 中 ， 程 序 输出 n 的 值 ， 并 检查 它 是 偶数 还 是 奇数 。 如 果 
是 偶数 ，n 会 除 以 2。 如 果 是 奇数 ，n 会 被 奉 换 为 nk3+1 。 例 如 ， 如 果 传 
入 sequence 函数 的 参数 是 3， 则 n 的 结果 值 是 : 3, 10, 5, 16, 8, 4, 2,1. 


因为 n 有 时 候 增 加 ， 有 时 候 减 少 ， 没 有 办 法 找到 明显 的 证 据 确定 n 
一 定 会 最 终 变 成 1， 或 者 说 程序 会 终止 。 对 于 某 些 特定 的 n 值 ， 我 们 可 
以 证 明 最 终 会 终止 。 例 如 ， 如 果 开 始 的 参数 值 是 2 的 需 方 ， 则 每 次 循环 n 
都 是 偶数 ， 直 到 变 成 1。 前 面 的 例子 中 有 一 部 分 就 是 这 样 的 序列 ， 以 16 
开始 。 








但 困难 的 问题 是 ， 我 们 是 否 能 够 证 明 这 个 程序 对 所 有 的 正 值 n 都 可 
以 最 终 终 止 。 至 今 为 止 ， 还 没有 人 对 这 个 问题 给 出 证 明 或 证 仿 ! 《人 参见 
http://en.wikipedia.org/wiki/Collatz_ conjecture) 。 


作为 练习 ， 重 写 5.8 节 中 的 print_n 函数 ， 使 用 循环 而 非 递归 来 实 
现 。 


7.4 break 语句 





有 时 候 只 有 在 循环 语句 体 的 执行 途中 才能 知道 是 不 是 到 了 退出 循环 
的 时 机 。 这 时 候 可 以 使 用 break 语句 来 跳出 循环 。 


例如 ， 假 设 你 想 要 获得 用 户 输入 ， 直 到 他 们 输入 done 。 可 以 这 么 





while True: 
line = input('> ') 
if line == 'done': 
break 


print(line) 


print('Done!') 





循环 的 条 件 是 True ， 总 是 为 真 ， 所 以 循环 会 一 直 运 行 ， 直 到 过 
到 break 语句 。 


每 次 循环 之 内 ， 都 会 先 用 一 个 尖 括 号 O) 来 提示 用 户 输入 。 如 果 
用 户 输入 done ，break 语句 会 退出 循环 。 人 否则 程序 会 显示 出 用 户 输入 
的 内 容 ， 并 重新 回 到 循环 的 顶端 。 这 里 是 一 个 运行 的 实例 : 
> not done 
not done 


> done 
Done! 








这 种 写 while WARIA E WL, A ay PASE A I A oR Fe 
放 在 循环 中 的 任何 地 方 〈 而 不 只 是 在 顶端 ) ， 并 且 可 以 以 肯定 的 语气 
来 表示 终结 条 件 (“ 当 这 样 发 生 时 停止 循环 *) ， 而 不 是 否定 的 语气 
“继续 执行 ， 直 到 那个 条 件 发 生 ”) 。 


7.5 FN 


程序 中 第 凋 使 用 循环 来 进行 数值 计算 ， 以 一 个 近似 值 开始 ， 并 迭代 
地 优化 计算 结 





例如 ， 计 算 平方 根 的 方法 之 一 是 牛顿 方法 。 假 设 你 想 要 知道 a 的 平 
方 根 。 如 果 你 以 任意 一 个 估计 值 x 开始， 可 以 使 用 如 下 的 方程 获得 一 个 
更 好 的 估计 值 。 





>>> y = (x + a/x) / 2 


>>> y 
2.16666666667 





这 个 结果 更 接近 正确 的 答案 C(V4= 2) 。 如 果 我 们 使 用 新 的 估计 值 
重复 这 个 过 程 ， 会 得 到 更 近似 的 结 


>>>x=y 

>>> y = (x + a/x) / 2 
>>> y 

2.00641025641 





再 经 过 几 次 重复 更 新 ， 估 计 值 会 几乎 完全 准确 : 





>>> X = y 

>>> y = (x + a/x) / 2 
>>> y 

2 . 00001024003 

>>> X = y 


>>> y = (x + a/x) / 2 


>>> 
2 . 00000000003 





通常 来 说 ， 我 们 并 不 能 提前 知道 需要 多 少 步 才 能 得 到 正确 的 答案 ， 
但 是 当 估 计 值 不 再 变化 时 ， 我 们 就 知道 达到 目的 了 。 


>>> X = y 
(x + a/x) / 2 





当 y == x 时， 可 以 终止 。 下 面 是 一 个 以 估计 值 x 开始 ， 并 不 断 先 
代 优 化 直到 它 不 再 变化 的 循环 : 





while True: 
print(x) 
y= = (x + a/x) / 2 





对 于 大 多 数 a 值 来 说 ， 这 样 效 果 很 好 ， 但 通常 来 说 ， 测 试 float 的 
相等 是 危险 的 。 浮 点 数值 只 是 近似 正确 : 大 部 分 有 理 数 ， 如 1/3， 以 及 


无 理 数 ， 如 v2 ， 都 不 能 用 float 精确 表示 。 


比 起 判断 x 和 y 是 否 精 确 相 等 ， 更 安全 的 方式 是 利用 内 置 函 数 abs 
来 计算 它们 之 间 差 值 的 绝对 值 ， 或 者 说 量 级 : 


if abs(y-x) < epsilon: 
break 





这 里 epsilon 的 值 是 0.0000001， 用 来 决定 近似 度 是 足够 的 。 
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牛顿 方法 是 算法 的 一 个 例子 : 它 是 解决 一 类 问题 的 机 械 化 过 程 
(在 这 个 例子 里 ， 问 题 是 计算 平方 根 〉。 





要 理解 算法 是 什么 ， 从 一 个 算 不 上 算法 的 东西 开始 可 能 更 简单 。 在 
学 习 个 位 数 相 乘 时 ， 你 可 能 背诵 过 乘法 表 。 实 际 上 ， 你 记 住 了 100 个 特 
别 的 答案 。 这 种 知识 不 算是 算法 。 





但 是 ， 如 果 你 比较 “ 懒 ”， 可 能 已 经 学 会 了 一 些小 技巧 来 偷懒 。 例 
如 ， 要 计算 n MIRR, MIAS Fn -1 作为 十 位 数 ，10-n 作为 个 位 
数 。 这 个 小 技巧 是 计算 任意 个 位 数 和 9 的 乘积 的 通用 方案 。 这 算是 一 个 
算法 ! 





相似 地 ， 你 学 过 的 进位 加 法 、 借 位 减法 以 及 长 除法 都 是 算法 。 算 法 
的 特点 之 一 是 它们 不 需要 任何 聪明 才智 束 能 执行 。 它 们 是 一 个 机 械 化 的 


过 程 ， 其 中 每 一 步 都 依照 一 组 简单 的 规则 接着 上 一 步 进行 。 


执行 算法 非常 枯燥 ， 但 设计 算法 的 过 程 却 充 满 趣味 和 智力 挑战 ， 并 
且 是 计算 机 科学 的 一 个 核心 部 分 。 





一 些 人 们 目 然 而 然 、 坚 无 困难 或 者 下 意识 所 做 的 事情 ， 用 算法 表达 
却 最 为 困难 。 理 解 目 然 语言 是 一 个 好 例子 。 我 们 都 能 理解 自然 语言 ， 但 
是 至 今 为 止 还 没有 人 能 解释 我 们 是 怎么 做 到 的 ， 至 少 没 办 法 用 算法 解 


释 。 











7.7 Wid 








当 你 开始 编写 更 大 的 程序 时 ， 常 常会 发 现 自己 花费 更 多 的 时 间 用 于 
调试 。 更 多 的 代码 意味 着 更 多 的 出 错 机 会 ， 以 及 更 多 可 能 隐藏 着 bug 的 
地 方 。 








削减 调试 时 间 的 方法 之 一 是 “二 分 调试 ”(debugging by 
bisection) 。 例 如 ， 如 果 你 的 程序 有 100 行 代码 ， 如 果 每 次 检查 一 行 ， 需 
要 100 步 。 








相反 地 ， 可 以 尝试 把 问题 分 成 两 半 。 找 到 程序 的 中 把 ， 或 者 接近 那 
里 的 地 方 ， 找 一 个 可 以 检验 的 中 间 结 果 。 添 加 一 个 print 语句 (或 者 其 
他 的 可 以 有 检查 效果 的 代码 ) 并 运行 程序 。 


如 果 中 点 检验 的 结果 是 错误 的 ， 说 明 错 误 必 然 出 现在 程序 的 前 半 部 
分 。 如 果 是 正确 的 ， 那 错误 则 在 程序 的 后 半 部 分 。 





每 进行 一 次 这 样 的 检查 ， 就 减少 了 一 半 需 要 检查 的 代码。 经 过 6 步 
之 后 (显然 少 于 100 步 ) ， 就 能 够 减少 到 一 至 两 行 代码 ， 至 少 理论 上 如 
此 








实践 中 ， 常 常 很 难 确定 “程序 的 中 点 ”在 哪里 ， 并 且 并 不 总 是 能 够 检 
验 它 。 通 过 数 代 码 行 数 来 确定 中 点 显然 没有 意义 。 相 反 地 ， 应 当 思 考 程 
序 中 哪些 地 方 可 能 出 错 ， 哪 些 地 方 容易 加 上 一 个 检查 。 然 后 选择 一 个 你 
认为 在 其 前 后 发 生 错误 概率 差不多 的 点 进行 检查 。 
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重新 赋值 (reassignment) : 对 一 个 已 经 存在 的 变量 赋予 一 个 新 
E 


更 新 Cupdate) : 一 种 赋值 操作 ， 新 值 依 赖 于 变量 的 旧 值 。 


初始 化 (initialization〉: 一 种 赋值 操作 ， 给 变量 一 个 初始 的 值 ， 
以 后 可 以 进行 更 新 。 


增 量 (increment) : 一 种 更 新 操作 ， 增 加 变量 的 值 〈 常 常 是 加 
1) 。 


减 量 (decrement) : 一 种 更 新 操作 ， 减 少 变量 的 值 。 


迭代 Citeration) : 使 用 递归 函数 调用 或 者 循环 来 重复 执行 一 组 语 


无 限 循环 (infinite loop) : 一 个 终止 条 件 永远 无 法 满足 的 循环 。 


算法 (algorithm) : 解决 一 类 问题 的 通用 过 程 。 
7.9 2 


2 >] 7-1 


复制 7.5 节 的 循环 并 封装 到 一 个 名 为 square_root 的 函数 中 ， 
函数 接收 一 个 形 参 a 。 选 择 一 个 合理 的 值 x ， 并 返回 a T 
值 。 





要 测试 这 个 方法 ， 可 以 编写 一 个 名 为 test_square_root 的 函数 ， 
打印 下 面 这 样 的 表格 : 


mysqrt(a) math.sqrt(a) 


421356237 


1. 

1. 
205080757 1.73205080757 

2. 

2. 


0 
41421356237 
73 
0 
.2369679775 2360679775 
2.44948974278 2.44948974278 
2.64575131106 2.64575131106 0.0 
2.82842712475 2.82842712475 4.4408920985e-16 
3.0 3.0 0.0 


.0 
.0 
.0 
.0 
.0 
.0 
.0 
.0 
.0 





第 一 列 是 一 个 数 ，a ; 第 二 列 是 数 a 的 平方 根 ， 使 用 mysqrt 函数 计 
算 ; 第 三 列 是 使 用 math.sqrt 计算 出 的 平方 根 ， 第 四 列 是 两 种 计算 结果 
的 差 值 的 绝对 值 。 


练习 7-2 


内 置 函数 eval 接收 一 个 字符 串 并 使 用 Python 解 释 器 对 它 进行 求 
值 。 例 如 : 


>>> eval('1 + 2 * 3') 

7 

>>> import math 

>>> eval('math.sqrt(5)') 
2.2360679774997898 


>>> eval('type(math.pi)') 
<class 'float'> 





43 —7 ek Bteval_loop, ARILENA, PCIe AH Ee 
用 eval 求 值 ， 并 打印 出 结 


它 应 当 一 直 继 续 ， 直 到 用 户 输入 'done' ， 并 返回 最 后 一 个 求 值 的 
表达 式 的 结果 。 


练习 7-3 


数学 家 拉 马 努 金 (Srinivasa Ramanujan) 找到 了 一 个 无 限 序列 ， 可 
以 用 来 生成 r 的 数值 近似 值 : 


i 2/2 3 (4k ll 1103 十 26390k ) 
m 9801 cs (k!)'396" 


l 








编写 一 个 函数 estimate_pi ， 使 用 这 个 公式 计算 并 返回 fr 的 近似 佑 
计 。 它 应 当 使 用 一 个 while 循环 来 计算 求 和 的 每 一 项 ， 直 到 最 后 一 项 的 
值 小 于 le-15 〈 这 是 Python 对 10- 的 标记 法 ) 。 你 可 以 通过 和 math .pi 
比较 来 检查 计算 的 结 


解答 : http://thinkpython2.com/code/pi.py。 


字符 串 和 整数 、 浮 点 数 以 及 布尔 类 型 都 不 同 。 字 符 串 是 一 个 序列 
(sequence) ， 即 它 是 一 个 由 其 他 值 组 成 的 有 序 集合 。 本 章 中 你 将 见 到 
如 何 访 问 构 成 字符 串 的 各 个 字符 ， 并 学 到 字符 串 类 提供 的 一 些 方法 。 
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字符 串 是 一 个 字符 的 序列 Csequence) 。 可 以 使 用 方 括号 操作 符 来 
访问 字符 串 中 单独 的 字符 : 


>>> fruit = 'banana' 
>>> letter = fruit[1] 








第 二 个 语句 选择 fruit 中 的 第 1 个 字符 ， 并 将 它 赋值 给 letter & 


r 





方 括号 中 的 表达 式 称 为 下 标 (index) 。 下 标 表示 想 要 序列 中 的 哪 
一 个 字符 (所 以 用 index 这 个 名 称 ) 


但 你 可 能 发 现 得 到 的 和 预料 不 一 样 : 


>>> letter 
a= 


pT 


对 大 多 数 人 来 说 ，'banana ' 的 第 一 个 字母 是 bp ， 而 不 是 a 。 但 对 
计算 机 科学 家 来 说 ， 下 标 表 示 的 是 离 字 符 串 开头 的 偏 移 量 ， 而 第 一 个 字 
BLAS iS EEO. 











>>> letter = fruit[@] 
>>> letter 
'b' 





所 以 b 是 'banana ' 的 第 0 个 字母 ，a 是 第 1 个 ，n 是 第 2 个 。 
可 以 使 用 包括 变量 和 操作 符 的 表达 式 作 为 下 标 。 


>>>i=1 

>>> fruit[i] 
13! 

>>> fruit[i+1] 
'n' 





但 下 标的 值 必 须 是 整数 ， 否 则 你 会 得 到 : 


>>> letter = fruit[1.5] 
TypeError: string indices must be integers 





8.2 len 


len 是 一 个 内 置 函 数 ， 返 回 字 符 串 中 字符 的 个 数 : 


>>> fruit = 'banana' 
>>> len(fruit) 
6 





要 获得 字符 串 的 最 后 一 个 字母 ， 你 可 能 会 想 这 么 写 : 


>>> length = len(fruit) 
>>> last = fruit[length] 
IndexError: string index out of range 





IndexError 出 现 的 原因 是 'banana' 中 没有 下 标 为 6 的 字母 。 因 为 
我 们 是 从 0 开始 计算 的 ，6 个 字母 的 下 标 是 0 到 5。 要 获得 最 后 一 个 字符 ， 
需要 从 length 里 减 1: 
>>> last = fruit[length-1] 


>>> last 
was 





或 者 ， 你 可 以 使 用 负数 下 标 。 负 数 下 标 从 字符 串 结 尾 处 倒 着 数 。 表 
达 式 fruit[-1] 返回 最 后 一 个 字母 ， 表 达 式 fruit[-2] 返回 倒数 第 二 


个 字母 ， 依 此 类 推 。 
8.3 fA for 循环 进行 过 历 


有 很 多 计算 都 涉及 对 字符 串 每 次 处 理 一 个 字符 的 操作 。 它 们 常常 从 
开头 起 ， 每 次 选择 一 个 字符 ， 对 它 做 一 些 处 理 ， 再 继续 ， 直 到 结束 。 这 
种 处 理 的 模式 ， 我 们 称 为 遍历 (traversal) 。 编 写 遍 历 逻 辑 的 方法 之 一 
是 使 用 while 循环 : 


index = 6 

while index < len(fruit): 
letter = fruit[index] 
print(letter) 


index = index + 1 








这 个 循环 过 历 字符 串 ， 并 将 每 个 字符 显示 在 单独 的 一 行 上 。 循 环 的 
结束 条 件 是 index < len(fruit), ， 所 以 当 index 等 于 字符 串 的 长 度 
时 ， 条 件 为 假 ， 循 环 体 不 被 运行 。 最 后 访问 的 字符 下 标 
为 len(fruit)-1 ， 正 好 是 字符 串 最 后 一 个 字符 。 











作为 练习 ， 写 一 个 函数 ， 接 收 一 个 字符 串 作 为 形 参 ， 并 倒序 显示 它 
的 字母 ， 每 个 字母 单独 一 行 。 


写 过 历 旬 辑 的 妃 一 个 方式 是 使 用 for 循环 : 





for letter in fruit: 
print(letter) 


pt 


BEUUIEIN ZH, RPE) R- AFERRA Se letter 。 
循环 会 继续 直到 没有 剩余 的 字符 为 止 。 





下 面 的 示例 展示 了 如 何 利用 字符 串 拼接 (字符 串 加 法 ) 和 一 个 for 
循环 来 生成 字母 序列 (也 就 是 ， 按 字母 顺序 排序 的 序列 ) 。 在 Robert 
MecCloskey 的 书 《 为 小 鸭 让 路 》 (Make Way for Ducklings ) 中 ， 小 鸭 们 
的 名 字 是 Jack、Kack、Lack、Mack、Nack、Ouack、Pack 及 Quack。 下 
面 的 循环 按 顺 序 输出 这 些 名 字 : 








prefixes = 'JKLMNOPQ' 
suffix = ‘ack’ 


for letter in prefixes: 
print(letter + suffix) 





当然 那 并 不 完全 正确 ， 因 为 “Ouack” 和 “Quack” 拼 写 错 了 。 作 为 练 
习 ， 修 改 程序 解决 这 个 问题 。 


8.4 FAV 


字符 串 中 的 一 段 称 为 一 个 切片 (slice) 。 选 择 一 个 切片 和 选择 一 个 
字符 类 似 : 


>>> s = ‘Monty Python' 
>>> s[@:5] 

"Monty ' 

>>> s[6:12] 


"Python' 





操作 符 [n:m] 返回 字符 串 从 第 n 个 字符 到 第 m 个 字符 的 部 分 ， 包 合 
第 n 个 字符 ， 但 不 包含 第 m 个 字符 。 这 个 行为 有 些 违反 直觉 ， 但 如 果 想 
象 下 标 是 指 癌 字 符 之 间 的 位 置 ， 可 以 帮助 我 们 理解 它 ， 如 图 8-1 所 示 。 


index 0 1 2 3 4 5 6 


图 8-1 切片 的 下 标 





如 果 省 略 掉 第 一 个 下 标 《〈“ 冒 号 之 前 的 那个 ) ， 切 片 会 从 字符 串 开 头 


开始 。 如 果 省 略 挥 第 二 个 下 标 ， 切 片 会 继续 到 字符 串 的 结 


>>> fruit = ‘banana’ 
>>> fruit[ :3] 

"ban 

>>> fruit[3:] 


"ana' 





如 有 果 第 一 个 下 标 大 于 或 等 于 第 二 个 下 标 ， 结 果 是 空 字 符 串 ， 用 两 
PIETRA: 


>>> fruit = 'banana' 
>>> fruit[3:3] 





字符 串 不 包含 任何 字符 ， 长 度 为 0， 但 除 此 之 外 ， 它 和 其 他 字符 


继续 本 例 ， 你 认为 fruit[:] 表示 什么 ? 尝试 一 下 看 看 结果 。 
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想 要 修改 字符 串 的 东 个 字符 ， 你 可 能 会 想 直 接 在 赋值 左 侧 使 用 [] 
操作 符 。 例 如 : 





>>> greeting = ‘Hello, world!’ 
>>> greeting[@] = 
TypeError: 'str' object does not support item assignment 


这 个 例子 里 的 “对 象 ”〈object) 是 字符 串 ， 而 “项 ”(item ) 是 指 你 想 
要 赋值 的 那个 字符 。 就 现在 来 说 ， 一 个 对 象 和 值 是 差不多 的 东西 ， 但 
我 们 会 在 后 面 细 谈 它 《参见 10.10 节 ) 。 








这 个 错误 产生 的 原因 是 因为 字符 串 是 不 可 变 (immutable) 的 ， 也 
束 是 说 ， 不 能 修改 一 个 已 经 存在 的 字符 串 。 你 能 做 的 最 多 是 新 建 一 个 字 
符 串 ， 它 和 原来 的 字符 串 稍 有 不 同 : 





>>> greeting = ‘Hello, world!' 

>>> new_greeting = 'J' + greeting[1: ] 
>>> new_greeting 

"Jello, world!' 








这 个 例子 使 用 新 的 首 字符 和 greeting 的 一 个 切片 拼接 起 来 。 它 对 
原来 的 字符 串 没有 影响 。 


8.6 ”搜索 


下 面 的 这 段 函 数 是 做 什么 的 ? 





def find(word, letter): 


index = 6 
while index < len(word): 
if word[index] == letter: 


return index 
index = index + 1 


return - 1 


从 茶 种 意义 上 说 ，find 是 [] 操作 符 的 反面 。 和 [ ] 操作 符 通 过 一 个 
下 标 碍 找 对 应 的 字符 不 同 ， 它 根据 一 个 字符 得 找 其 出 现在 字符 串 中 的 下 
标 。 如 琳 没 有 找到 人 字符， 函数 返回 -1 。 





这 是 我 们 第 一 次 在 循环 内 部 看 到 return 语句 。 如 果 word[index] 
== letter ， 函 数 直接 跳出 循环 并 立即 返回 


如 果 字 符 没 有 出 现在 字符 串 中 ， 程 序 正 常 退出 循环 ， 并 返回 -1 


这 种 计算 的 模式 一 一 饥 历 一 个 序列 ， 并 当 找 到 我 们 寻找 的 目标 时 返 
称 为 搜索 。 





作为 练习 ， 修 改 find 函数 ， 让 和 它 接收 第 3 个 形 参 ， 表 示 从 word 的 
哪个 下 标 开始 搜索 。 


8.7 ”循环 和 计数 


下 面 的 代码 计算 字母 a 在 字符 串 中 出 现 的 次 数 : 





word = 'banana' 
count = @ 
for letter in word: 
if letter == 'a': 
count = count + 1 
print (count) 


[L CR 


这 个 程序 展示 了 男 一 种 计算 模式 ， 称 为 计数 器 。 变 量 count 初始 
化 为 0， 接 着 每 次 找到 一 个 a 时 计数 器 加 1。 当 循环 结束 时 ，count 保存 
着 结果 一 一 a 出 现 的 总 次 数 。 








作为 练习 ， 将 这 段 代 码 封 装 成 函数 count ， 并 泛 化 它 以 接收 字符 串 
和 要 计数 的 字母 作为 形 参 。 


接着 重 写 count 函数 ， 不 直接 遍历 字符 串 ， 而 是 使 用 前 面 一 节 中 的 
3 形 参 版 本 的 find 函数 。 
8.8 APB TIE 


字符 串 提 供 了 很 多 完成 各 种 操作 的 有 用 的 方法 。 方 法 和 函数 很 相 
似 一 一 它 接收 形 参 并 返回 值 一 一 但 语法 有 所 不 同 。 例 如 ， 方 法 upper 接 
收 一 个 字符 串 ， 并 返回 一 个 全 部 字母 都 是 大 写 的 字符 串 。 








和 函数 的 语法 upper(word) 不 同 ， 它 使 用 方法 的 调用 语法 


word.upper() -o 


>>> word = ‘banana’ 

>>> new_word = word.upper() 
>>> new_word 

"BANANA' 





这 种 句点 表示 法 指定 了 方法 的 名 称 ， 以 及 方法 应 用 到 的 字符 串 的 名 


称 word 。 空 的 括号 表示 这 个 方法 没有 任何 参数 。 


方法 的 调用 称 为 invocation H; 在 这 个 例子 里 ， 我 们 说 我 们 
在 word 字符 串 上 调用 方法 upper 。 


实际 上 ， 字 符 串 本 来 就 有 一 个 方法 find ， 和 我 们 之 前 写 的 find K 
数 非常 相似 : 


>>> word = ‘'banana' 

>>> index = word. find('‘a') 
>>> index 

1 





在 这 个 例子 中 ， 我 们 在 word 上 调用 find 方法 ， 并 传 入 要 查找 的 字 
母 作为 实 参 。 





实际 上 ，find 方法 比 我 们 的 函数 更 通用 ， 它 可 以 用 来 查找 子 字符 
串 ， 而 不 仅仅 是 字符 : 





>>> word.find('na') 
2 





默认 情况 下 ，find 在 字符 串 的 开始 局 动 ， 但 它 还 可 以 接收 第 二 个 
实 参 ， 表 示 从 哪 一 个 下 标 开 始 奋 找 : 


>>> word.find('na', 3) 
4 


这 是 可 选 参数 的 一 个 示例 。find 还 可 以 接收 第 三 个 实 参 ， 表 示 查 
找到 哪个 下 标 束 结 


>>> name = 'bob' 
>>> name.find('b', 1, 2) 
-1 





这 个 搜索 失败 ， 因 为 b 并 没有 在 字符 串 的 下 标 1 到 2 之 间 (不 包括 
2) HE. find 在 搜索 时 只 搜索 到 第 二 个 (但 不 包括 第 二 个 ) 下 标 为 
止 ， 这 使 find 和 切片 操作 符 的 行为 一 致 。 


8.9 ”操作 符 in 


in 是 一 个 布尔 操作 符 ， 操 作 于 两 个 字符 串 上 ， 如 果 第 一 个 是 第 二 
个 的 子 串 ， 则 返回 True ， 和 否则 返回 False : 


>>> 'a' in 'banana' 
True 

>>> ‘seed’ in 'banana' 
False 





例如 ， 下 面 的 函数 打印 出 word1 中 出 现 且 出 现在 word2 中 的 所 有 字 


def in_both(word1, word2): 
for letter in word1: 
if letter in word2: 
print(letter) 





精心 选择 变量 名 称 后 ，Python 有 时 会 读 起 来 很 像 英 语 。 可 以 这 样 读 
这 个 循环 : “for (each) letter in (the first) word, if (the) letter (appears) in 


(the second) word, print (the) letter”. 
下 面 是 用 这 个 函数 比较 单词 apples 和 oranges 的 结 


>>> in_both('apples', "oranges ' ) 





8.10 HFFA LR 


关系 操作 符 也 可 以 用 在 字符 串 上 。 检 查 两 个 字符 串 是 否 相 等 : 


if word == "banana ' : 
print('All right, bananas.') 











其 他 的 关系 操作 符 在 将 单词 按照 字母 顺序 比较 时 有 用 : 


if word < 'banana': 

print('Your word,' + word + ', comes before banana.') 
elif word > ‘banana’: 

print('Your word,' + word + ', comes after banana.’ ) 
else: 


print('All right, bananas." ) 








Python 处 理 大 小 写字 母 时 和 人 处 理 时 不 一 样 。 所 有 的 大 写字 母 都 在 
小 写字 母 之 前 。 所 以 : 


Your word, Pineapple, comes before banana. 





处 理 这 个 问题 的 常用 办 法 是 先 将 字符 串 都 转换 为 标准 的 形式 ， 如 都 
转换 成 全 小 写字 母 形式 ， 再 进行 比较 。 如 果 你 过 到 一 个 武装 着 Pineapple 
的 敌人 需要 保护 自己 时 ， 请 记 住 这 个 办 法 。 


8.11 调试 





当 使 用 下 标 来 遍历 序列 中 的 值 时 ， 要 正确 实现 遍历 的 开端 和 结尾 并 
不 容易 。 下 面 是 一 个 函数 ， 能 够 比较 两 个 单词 ， 如 果 它 们 互 为 倒序 ， 则 
返回 True ， 但 这 个 函数 包含 了 两 个 错误 : 








def is reverse(word1, word2): 
if len(word1) != len(word2): 
return False 


0 
len(word2) 


i= 
j = 
while j > 6: 
if word1[i] != word2[j]: 
return False 
i = i+1 
j = j-1 


return True 








第 一 个 if ie calli 是 否 长 度 相同 。 如 果 不 同 ， 我 们 就 并 
即 返回 False ， 耕 则 在 后 面 整个 函数 中 ， 都 可 以 认为 两 个 单词 是 相同 长 
度 的 。 这 是 6.8 节 中 讲 到 的 aes : 


i 和 j 是 下 标 : i AP IE word1, fj 用 于 反问 遍历 word2 。 
如 有 果 我 们 找到 两 个 不 匹配 的 字母 ， 则 可 以 立即 返回 False 。 如 果 完 成 整 
个 循环 后 所 有 的 字母 仍然 都 相等 ， 则 返回 True 。 





如 果 使 用 单词 “pots” 和 “stop” 来 测试 这 个 函数 ， 我 们 会 预期 返回 值 
是 True ， 但 实际 上 会 得 到 一 个 IndexError: 


>>> is_reverse('pots', 'stop') 


File "“reverse.py", line 15, in is reverse 
if word1[i] != word2[j]: 
IndexError: string index out of range 








为 了 调试 这 类 错误 ， 第 一 步 可 以 在 友 生 错误 的 那 行 代码 之 前 打印 出 


索引 的 值 。 


while j > @: 
print i, j # 在 这 里 打印 











if word1[i] != word2[j]: 
return False 

i i+1 

jagi 





这 样 再 一 次 运行 程序 时 ， 能 获得 更 多 的 信息 : 


>>> is reverse('pots', 'stop') 
04 


IndexError: string index out of range 





第 一 次 迭代 时 ，j 的 值 是 4， 超 出 了 'pots ' 的 范围 。 最 后 一 个 字符 
的 下 标 是 3， 所 以 j 的 初始 值 应 该 是 len(word2)-1 。 


如 果 修 改 这 个 错误 并 重新 运行 程序 ， 会 得 到 : 


>>> is reverse('pots', 'stop') 
0 3 
12 
21 


True 





这 回 我 们 得 到 了 正确 的 结果 ， 但 看 起 来 循环 只 运行 了 3 次 ， 有 些 可 
疑 。 为 了 对 具体 发 生 了 什么 有 更 清晰 的 印象 ， 可 以 画 一 个 状态 图 。 第 一 
个 迭代 中 ，is_reverse 的 帧 显示 在 网 8-2 中 。 





word! —> ‘pots’ word2 —> ’stop’ 


i— > 0 | —= 3 





图 8-2 ”状态 图 


我 特意 安排 了 帧 中 变量 的 位 置 ， 并 使 用 虚线 来 显示 i Mj 指 
向 word1 和 word2 中 的 字符 。 





从 这 个 图 开始 ， 在 纸 上 运 行程 序 ， 每 个 迭代 修改 和 j 的 值 。 找 到 
并 修复 这 个 函数 的 第 二 个 错误 。 


8.12 术语 表 


对 象 Cobject) : 变量 可 以 引用 的 一 种 事物 。 就 现在 来 说 ， 可 以 
把 “对 象 ” 当 作 “ 值 ”来 使 用 。 


序列 (sequence) : 一 个 有 序 的 值 的 集合 ， 其 中 每 个 使 用 一 个 下 标 
来 定位 。 


项 (item) : 序列 中 的 一 个 值 。 


下 标 Gndex) : 用 于 在 序列 中 选择 元 素 的 整数 值 。 例 如 ， 可 以 用 


于 在 字符 串 中 选取 字符 。 在 Python 中 下 标 从 0 开始 。 
切片 (slice) : 字符 串 的 一 部 分 ， 通 过 一 个 下 标 范围 来 定位 。 


TFP (empty string) : 没有 字符 ， 长 度 为 0 的 字符 串 ， 使 用 一 
对 引号 来 表示 。 





不 可 变 Cimmutable) : 序列 的 一 种 属性 ， 表 示 它 的 元 素 是 不 可 以 
PAR HY 


WJ (traverse) : 迭代 访问 序列 中 的 每 一 个 元 素 ， 并 对 每 个 元 素 
进行 相似 的 操作 。 





搜索 (search) : 一 种 遍历 的 模式 ， 当 找到 它 想 要 的 元 素 时 停止 。 


计数 器 (counter) : 一 种 用 来 计数 的 变量 ， 通 常 初始 化 为 0， 后 来 


会 递增 。 

方法 调用 Cinvocation) : 调用 一 个 方法 的 语句 。 

可 选 参数 (optional argument) : 函数 或 方法 中 ， 并 不 必须 有 的 参 
数 。 
8.13 练习 


练习 8-1 


在 http:/docs.python.org/3/library/stdtypes.html#string-methods 阅 读 字 
符 串 方法 的 文档 。 你 可 能 会 想 实验 一 下 其 中 的 一 些 方法 ， 以 确保 自己 理 


解 了 它们 的 工作 方式 。strip 和 replace 特别 有 用 。 


文档 中 使 用 了 一 种 可 能 会 引起 困惑 的 语法 。 例 如 ，find(sub [， 
start[, end]]) 中 的 方 括号 表示 可 选 的 参数 。 所 以 sub 是 必需 的 ， 但 
是 start 是 可 选 的 ， 并 且 如 果 使 用 了 start ， 则 end 是 可 选 的 。 


练习 8-2 





有 一 个 字符 串 方法 叫 作 count ， 和 我 们 之 前 在 8.9 节 中 展示 的 方法 
类 似 。 阅 读 这 个 方法 的 文档 ， 并 写 一 个 程序 调用 它 来 计算 'banana' 中 a 
出 现 的 次 数 。 


练习 8-3 


字符 串 切 片 可 以 接受 第 三 个 下 标 用 来 指定 “ 步 长 ”"， 即 相 邻 的 字符 之 
间 的 距离 。 步 长 为 2， 意 思 是 切片 每 次 取 接 下 来 第 2 个 字符 ; 步 长 3 意思 
是 每 次 取 接 下 来 第 3 个 字符 ， 等 等 。 

















>>> fruit = 'banana' 
>>> Fruit[e:5:2] 
"bnn' 





步 长 为 -1 表示 切片 按照 相反 的 方 癌 访问 字符 串 ， 所 以 切片 [::-1] 
会 得 到 一 个 逆序 的 字符 串 。 





使 用 这 个 特性 来 编写 一 个 一 行 版 本 的 is_palindrome 函数 〔 见 练 
~J6-3) 。 


练习 8-4 





下 面 的 几 个 函数 目的 都 是 检查 一 个 字符 串 是 否 包含 小 写字 母 ， 但 
至 少 有 一 个 是 错误 的 。 对 每 个 函数 ， 描 述 一 下 这 个 函数 到 底 做 了 什么 
(假设 形 参 是 一 个 字符 串 )。 





def any_lowercase1(s): 
for c in s: 
if c.islower(): 
return True 
else: 
return False 


any_lowercase2(s): 
for c ins: 
if 'c'.islower(): 
return 'True' 
else: 
return 'False' 


any_lowercase3(s): 
for c ins: 

flag = c.islower() 
return flag 


any_lowercase4(s): 
flag = False 
for c ins: 
flag = flag or c.islower() 
return flag 


any_lowercase5(s): 
for c ins: 
if not c.islower(): 
return False 
return True 





2 >] 8-5 


凯撒 密码 (Caesar Cypher) 是 一 个 比较 弱 的 加 密 形式 ， 它 涉及 将 单 
词 中 的 每 个 字母 < 轮转 "国定 数量 的 位 置 。 轮 转 一 个 字母 意思 是 在 字母 表 
中 移动 它 ， 如 果 需 要 ， 再 从 开头 开始 。 所 以 'A' 轮 转 3 个 位 置 是 'D'， 
而 'Z, 轮 转 一 个 位 置 是 'A'。 











要 对 一 个 单词 进行 轮转 操作 ， 对 其 中 每 一 个 字母 进行 轮转 即 可 。 例 
Qi, “cheer 轮 转 7 位 的 结果 是 *olly”， 而 “melon” 轮 转 -10 位 结果 
是 “cubed”。 在 电影 《2001 太 空 漫游 》 中 ， 舰 载 机 器 人 叫 作 HAL， 这 个 
单词 正 是 IBM 轮 转 -1 位 的 结果 。 


编写 一 个 函数 rotate_word ， 接 收 一 个 字符 串 以 及 一 个 整数 作为 
参数 ， 并 返回 一 个 新 字符 串 ， 其 中 的 字母 按照 给 定 的 整数 值 “轮转 ”位 
B 


RE EHAE Kord, CREER- ANTERA ty, A 
及 函数 chr ， 它 将 数值 编码 转换 为 字符 。 了 字母 表 中 的 字母 是 按照 字母 顺 
序 编码 的 ， 所 以 ， 例 如 : 





>>> ord('c') - ord('a') 
2 








因为 'c' 在 字母 表 中 的 下 标 是 2。 但 是 请 注意 : 大 写字 母 的 数字 编 
码 是 不 同 的 。 


因特网 上 有 些 可 能 冒犯 人 的 笑话 是 用 ROT13 编 码 的 。ROT13 是 轮转 
13 位 的 凯撒 密码 。 如 果 你 不 容易 被 冒犯 ， 可 以 寻找 一 些 并 解码 。 


解答 : http://thinkpython2.com/code/rotate.py 





[1] 普通 函数 的 调用 ， 称 为 cal1l 。 译 者 注 





本 章 介 绍 第 二 个 案例 分 析 ， 讲 述 的 是 通过 搜索 具有 菏 种 特性 的 单词 
来 解决 单词 谜 题 这 一 话题 。 例 如 ， 我 们 会 寻找 英语 单词 中 最 长 的 回 文 单 
词 ， 还 会 搜索 那些 其 字母 按照 字母 表 顺 序 排列 的 单词 。 妃 外， 我 会 介绍 
另 一 种 程序 开发 计划 : 缩减 问题 规模 ， 回 归 成 之 前 解决 过 的 问题 。 





91 读 取 单词 列表 


为 本 章 的 练习 ， 我 们 需要 准备 一 个 英文 单词 列表 。 互 联网 上 有 很 多 
可 用 的 单词 列表 ， 但 最 适合 我 们 的 目标 的 单词 列表 ， 是 由 Grady Ward 收 
集 整 理 并 作为 Moby 词 典 项 目 (参看 
http://wikipedia.org/wiki/Moby_Project) 的 一 部 分 页 献 给 公共 域 的 。 它 包 
含 113 809 个 正式 的 填 字 游戏 用 词 ， 即 那些 认为 可 以 用 于 纵横 填 字 游戏 
和 其 他 类 型 文字 游戏 的 单词 。 在 Moby 集 合 中 ， 文 件 名 是 113869of .fic 
; 可 以 从 http://thinkpython.com/code/words. txt 下 载 一 个 副本 ， 但 文件 名 
是 更 简单 的 words .txt 。 








这 个 文件 是 纯 文 本 ， 所 以 可 以 使 用 文本 编辑 器 打开 ， 也 可 以 使 用 
Python 该 入 它 。 内 置 函 数 open 接收 文件 名 作为 参数 ， 并 返回 一 个 文件 
对 象 (file object) ， 可 以 用 来 读 取 文 件 。 


>>> fin = open('words.txt') 


| | 

Fin 是 用 来 表示 文件 对 象 作 为 输入 源 时 常用 的 名 称 。 文 件 对 象 提供 
了 几 个 方法 用 于 读 取 内 容 ， 包 括 readline ， 它 会 从 文件 里 读 入 字符 ， 
直到 获得 换行 符 为 止 ， 并 将 读 入 的 结果 作为 一 个 字符 串 返 回 : 


>>> fin.readline() 
‘aa\r\n' 





在 这 个 特定 的 列表 中 ， 第 一 个 单词 是 "aa"， 它 是 一 种 火山 熔岩 。 序 
列 \r\n 表示 两 个 空格 字符 ， 一 个 是 回 车 ， 一 个 是 换行 ， 用 于 把 这 个 单 
词 和 其 他 单词 分 隔 开 。 


文件 对 象 会 记录 它 读 到 文件 的 哪个 位 置 ， 因 此 如 果 再 次 调 
用 readline ， 会 得 到 下 一 个 单词 : 


>>> fin.readline() 


"aah\r\n' 





下 一 个 单词 是 "aah"， 也 是 一 个 完全 合法 的 单词 ， 所 以 别 用 奇怪 的 
眼光 看 着 我 。 或 者 ， 如 果 是 那 几 个 空白 字符 在 干扰 你 ， 可 以 使 用 字符 串 
的 方法 strip 去 掉 它们 : 








>>> line = fin.readline() 
>>> word = line.strip() 
>>> word 

“aahed 


你 也 可 以 在 for 循环 中 使 用 文件 对 象 。 下 面 的 代码 读 入 words .txt 
并 每 行 打印 出 一 个 单词 : 


fin = open('words.txt') 
for line in fin: 
word = line.strip() 
print(word) 





9.2 练习 


在 下 一 节 里 有 这 些 练习 的 解答 。 在 继续 阅读 解答 之 前 ， 应 当 人 至 少 尝 
A BETTER! 0 


练习 9-1 


编写 一 个 程序 ， 读 入 words .txt 并 且 打 印 出 那些 长 度 超过 20 个 字符 
的 单词 〈 不 算 空 白字 符 ) 。 


练习 9-2 


1939 年 ，Ernest Vincent Wright 出 版 了 一 本 5 万 字 的 小 说 Gadsby ， 这 
本 书 里 没有 包含 字母 “<e"。 因 为 “e" 是 英语 中 最 第 见 的 字母 ， 所 以 这 并 不 
是 件 容 易 的 事 。 


实际 上 ， 不 使 用 这 最 常见 的 字母 的 话 ， 仪 仅 是 构建 一 条 单独 的 构思 
也 是 很 难 的 事情 。 开 始 时 会 很 慢 很 艰难 ， 但 保持 谨慎 和 长 时 间 的 训练 ， 
你 可 以 渐渐 掌握 方法 。 


IE, RETK. H 


写 一 个 函数 has_no_e ， 当 给 定 的 单词 不 包含 字母 “<e" 时 ， 返 回 True 





修改 前 一 节 练 习 中 的 代码 ， 打 印 出 不 含 “e” 的 单词 ， 并 计算 这 种 单 
词 在 整个 单词 表 中 的 百分比 。 


练习 9-3 


编写 一 个 函数 avoids ， 接 收 一 个 单词 ， 以 及 一 个 包含 禁止 字母 的 
字符 串 ， 当 单词 不 含 任何 禁止 字母 时 ， 返 回 True 。 
修改 你 的 程序 ， 提 示 用 户 输入 包含 禁止 字母 的 字符 串 ， 并 打印 出 不 


包含 任意 禁止 字母 的 单词 的 个 数 。 能 不 能 找到 一 组 5 个 禁止 字母 的 组 
合 ， 它 们 排除 的 单词 最 少 ? 











练习 9-4 


编写 一 个 名 为 uses_only 的 函数 ， 接 收 一 个 单词 以 及 字母 组 成 的 字 
符 串 ， 当 单词 只 由 这 些 字 母 组 成 时 返回 True 。 你 可 以 造 一 个 句子 ， 其 
单词 只 由 字母 acefhlo 组 成 吗 ? 除了 “Hoealfalfa” 之 外 呢 ? 


练习 9-5 


编写 一 个 名 为 uses_all 的 函数 ， 接 收 一 个 单词 以 及 由 需要 的 字母 
组 成 的 字符 串 ， 当 单词 中 所 有 需要 的 字母 都 出 现 了 至 少 一 次 时 返回 True 
。 有 多 少 单 词 使 用 了 所 有 的 元 音字 母 aeiou ? 而 aeiouy W? 











练习 9-6 


编写 一 个 名 叫 is_abecedarian 的 函数 ， 如 果 单 词 中 的 字母 是 按 员 
字母 表 顺 序 排列 的 (两 个 重复 字母 也 可 以 ) ， 则 返回 True 。 Me 
样 的 单词 ? 


9.3 ”搜索 


前 面 一 市 的 所 有 练习 都 有 一 个 共同 点 ;它们 可 以 使 用 我 们 在 8.6 市 
中 介绍 的 搜索 模式 来 解决 。 最 简单 的 例子 是 : 


def has_no_e(word): 
for letter in word: 
if letter == 'e': 
return False 


return True 





for JAE At]word 中 的 字符 。 如 果 我 们 找到 字母 “e”， 可 以 六 
即 返回 False ; 否则 只 能 继续 下 一 个 字母 。 如 果 正 常 退 出 了 循环 ， 则 说 
明 我 们 没有 找到 “e”， 所 以 返回 True 。 


使 用 in 操作 符 ， 可 以 把 这 个 函数 写 得 更 简洁 。 上 面 这 个 示例 没有 
写 得 更 简洁 是 因为 想 要 展现 搜索 模式 的 逻辑 。 








avoids 是 has_no_e 的 更 通用 的 版 本 ， 它 们 的 结构 相同 : 


def avoids(word, forbidden): 
for letter in word: 
if letter in forbidden: 


return False 


return True 














一 旦 发 现 一 个 禁止 的 字母 ， 可 以 立即 返回 False ; 如 果 运 行 到 循环 
结束 ， 则 返回 True 。 


uses only 函数 也 类 似 ， 只 是 它 条 件 判 断 的 意思 是 相反 的 : 


def uses_only(word, available): 
for letter in word: 
if letter not in available: 
return False 
return True 





它 接 收 的 参数 并 不 是 一 个 禁止 字母 列表 ， 而 是 一 个 可 用 字母 列 
表 available 。 如 果 我 们 发 现 单词 中 遇 到 了 并 不 属于 available 的 字 
母 ， 则 可 以 返回 False 。 





uses all 函数 也 类 似 ， 但 单词 和 字母 列表 的 角色 相反 。 





def uses_all(word, required): 
for letter in required: 
if letter not in word: 
return False 
return True 


BT AS Fan word 中 的 字母 ， 而 是 循环 壳 历 必需 的 单词 列 
表 required 。 如 果 单 词 列 表 中 有 任意 字母 没有 出 现在 单词 中 ， 我 们 可 
以 返回 False 。 

















如 果 你 真 的 像 计 算 机 科学 家 那样 思考 的 话 ， 应 该 已 经 发 
Hl, uses_all 实际 上 是 已 经 解决 的 问题 的 一 个 特例 ， 并 且 可 以 这 么 


def uses all(word, required): 
return uses_only(required, word) 





这 是 被 称 为 将 问题 回归 到 已 解决 问题 (reduction to a previously 
solved problem) 的 程序 开发 计划 的 一 个 例子 。 意 即 你 需要 识别 出 的 当前 
问题 是 一 个 已 经 解决 的 问题 的 特例 ， 从 而 可 以 直接 利用 现 有 的 解决 方 


Ro 


9.4 使 用 下 标 循 环 





在 前 面 一 节 的 例子 中 ， 我 使 用 for 循环 进行 遍历 ， 因 为 只 需要 字符 
串 中 的 字符 ， 而 不 需要 操作 下 标 。 


但 对 is_abecedarian 函数 我 们 需要 比较 相 邻 的 字母 ， 使 用 for 循 


环比 较 困 难 : 


def is_abecedarian(word): 
previous = word[@] 
for c in word: 
if c < previous: 
return False 


previous = c 
return True 





或 者 也 可 以 使 用 递归 : 


def is_abecedarian(word): 
if len(word) <= 1: 
return True 
if word[@] > word[1]: 
return False 
return is_abecedarian(word[1: ]) 





还 有 一 个 办 法 是 使 用 while 循环 : 


is_abecedarian(word): 
i=0 
while i < len(word)-1: 
if word[i+1] < word[i]: 
return False 


i = i+1 
return True 





循环 开始 于 i=86， 并 结束 于 i=len (word)-1。 每 次 迭代 时 ， 比 较 
第 i 个 字符 (可 以 看 成 是 当前 字符 〉 和 第 i+1 个 字符 (可 以 看 成 是 下 一 个 
字符 ) 。 





如 果 下 一 个 字符 比 当前 字符 小 〈 即 按照 字母 顺序 在 前 ) ， 则 我 们 发 
现 了 一 个 破坏 字母 顺序 的 断 点 ， 可 以 返回 False 。 


如 果 我 们 没有 找到 任何 断后 而 结束 循环 ， 则 这 个 单词 通过 了 测试 。 
为 了 说 服 目 己 循环 是 正确 结束 的 ， 可 以 考虑 像 'flossy' 这 样 的 例子 。 
这 个 单词 的 长 度 是 6， 所 以 最 后 一 次 循环 时 i 是 4， 即 是 倒数 第 二 个 字符 
的 下 标 。 在 最 后 一 个 循环 中 ， 会 比较 倒数 第 二 个 和 最 后 一 个 字符 ， 这 正 
EDT AT HF HY o 


下 面 是 is_palindrome K% (S325) 6-3) 的 一 个 版 本 ， 它 使 用 
两 个 下 标 ; 一 个 从 0 开始 递增 ; 另 一 个 从 最 后 开始 递减 。 


def is_palindrome(word): 
i= 9 
j = len(word)-1 


while i<j: 
if word[i] != word[j]: 
return False 
i+1 
j-1 


i 
J 


return True 





或 者 ， 我 们 可 以 将 其 回归 到 已 经 解决 的 问题 ， 可 能 这 么 与 : 


def is_palindrome(word): 
return is_reverse(word, word) 





使 用 练习 8-2 中 的 is_reverse 。 


9.5 调试 


测试 程序 很 难 。 本 章 中 的 函数 相对 容易 测试 ， 因 为 可 以 简单 地 手动 
验证 结果 。 即 便 如 此 ， 要 选择 一 组 可 以 测试 到 所 有 可 能 的 错误 的 单词 ， 
也 是 很 困难 的 ， 甚 至 是 不 可 能 的 。 


举 has_no_e 作为 例子 ， 有 两 个 很 明显 的 用 例 可 以 检测 : 包含 “e” 的 
单词 应 该 返回 False ; 不 包含 “e” 的 应 当 返 回 True 。 为 这 两 种 情况 找到 
具体 的 单词 没有 问题 。 


但 对 每 种 情况 来 说 ， 也 存在 一 些 不 那么 明显 的 具体 情况 。 在 所 有 包 
合 “e” 的 单词 中 ， 你 应 当 测试 以 “e* 开 头 的 单词 ， 也 应 当 测 试 以 “e" 结 尾 ， 
以 及 “e” 在 单词 中 部 的 情况 。 你 应 当 测试 长 单词 、 短 单词 及 非常 短 的 音 
词 ， 如 空 字符 串 。 空 字符 串 是 特殊 情形 (special case) 的 一 个 例子 。 特 
殊 情 形 往往 不 那么 明显 ， 但 又 常常 隐藏 着 错误 。 





除了 自己 生成 的 测试 用 例 之 外 ， 还 可 以 使 用 类 似 words .txt 这 样 的 
单词 表 来 测试 你 的 程序 。 通 过 扫 插 输出， 可 能 会 故 现 错误 ,但 请 注意 : 
你 可 能 发 现 一 种 类 型 的 错误 不 应 该 被 包含 但 却 被 包含 的 单词 ， 但 对 
另 一 种 类 型 的 则 不 能 发 现 《应 该 被 包含 ， 但 却 没有 出 现 的 单词 ) 。 


忆 之 ， 测 试 可 以 帮助 你 发 现 bug， 但 生成 一 组 好 的 测试 用 例 并 不 容 
易 。 而 且 ， 即 使 有 好 的 测试 用 例 ， 也 无 法 确定 程序 是 完全 正确 的 。 引 用 
-个 传奇 计算 机 科学 家 的 话 : 








程序 测试 可 以 用 来 显示 bug 的 存在 ， 但 无 法 显示 它们 的 缺席 ! 
(Program testing can be used to Show the presence ofbugs，but never to 


show their absence! ) 


—Edsger W.Dijkstra 
9.6 术语 表 


文件 对 象 (file object) : 用 来 表示 一 个 打开 的 文件 的 值 。 


将 问题 回归 到 已 解决 问题 (reduction to a previously solved 
problem) : 通过 把 问题 表述 为 已 经 解决 的 某 个 问题 的 特例 解决 问题 的 
= ZK o 





特殊 情形 (special case) : 一 种 不 典型 或 者 不 明显 (因此 更 可 能 没 
有 正确 处 理 ) 的 测试 用 例 。 


9.7 练习 


练习 9-7 





本 练习 中 的 问题 是 基于 广播 节目 《车 迷 天 下 》 (Car Talk) 中 出 现 
的 一 个 谜 题 而 设计 的 Chttp://www.cartalk.com/content/puzzlers ) : 


给 我 一 个 包含 3 组 连续 的 成 对 字母 的 单词 。 我 会 给 你 几 个 几乎 可 以 
达到 要 求 却 还 差 一 点 儿 的 词 作为 例子 。 例 如 ， 单 词 committee， 即 c-o-m- 
m-i-t-t-e-e。 除 了 i 不 满足 条 件 外 ， 这 个 单词 是 一 个 好 例子 。 或 者 
Mississippi: M-i-s-s-i- s-s-i-p-p-i。 如 果 你 能 够 拿 挥 其 中 的 1， 则 它 也 符合 
要 求 。 但 确实 有 这 么 一 个 单词 ， 并 且 束 我 所 知 ， 它 可 能 是 满足 这 个 条 件 
的 唯一 的 单词 。 当 然 也 可 能 存在 500 个 ， 但 我 只 能 想到 一 个 。 它 是 什么 
呢 ? 


编写 一 个 程序 来 找到 它 。 解 答 : 
http://thinkpython2.com/code/cartalk1.py. 


2 >] 9-8 


PEA CREA PE) PARE 


Chttp://www.cartalk.com/content/puzzlers ) : 





“有 一 天 我 正在 高 速 公 路 上 开车 ， 碰 巧 注意 到 里 程 表 。 和 大 部 分 里 
程 表 一 样 ， 它 显示 6 位 整数 的 英里 数 。 所 以 ， 例 如 我 的 车 有 300 000 英 里 
里 程 ， 则 会 看 到 3-0-0-0-0-0。 





“那天 我 看 到 的 里 程 数 很 有 意思 。 我 发 现 最 后 4 位 数 是 回 文 的 ;也 融 
是 说 ， 它 们 不 论 是 正 序 还 是 逆序 地 看 都 一 样 。 例 如 ，5-4-4-5 是 一 个 回 
文 ， 所 以 我 的 里 程 表 可 能 显示 为 3-1-5-4-4-5。 














“1 英里 之 后 ， 后 5 位 数组 成 一 个 回 文 。 例 如 ， 它 可 以 是 3-6-5-4-5-6。 
再 过 1 英里 ，6 位 数 的 中 间 4 位 是 一 个 回 文 。 而 接 下 来 ， 你 准备 好 了 吗 ? 
又 1 英里 过 去 ， 所 有 的 6 位 数 都 成 了 回 文 ! 


“问题 是 ， 我 第 一 次 看 里 程 表 时 ， 它 的 示 数 是 多 少 ? ” 


编写 一 个 Python 程序 ， 检 测 全 部 的 6 位 数 ， 并 打印 出 可 以 满足 上 面 
这 些 要 求 的 数字 。 解 答 : http://thinkpython2.com/code/cartalk2.py。 


练习 9-9 


下 面 是 男 一 个 《车 迷 天 下 》 的 谜 题 ， 你 可 以 使 用 一 个 搜索 来 解决 


(http:/www.cartalk.com/ content/puzzlers ) : 


最 近 我 去 母亲 家 时 ， 我 发 现 自己 的 年 龄 的 两 位 数 正 好 是 母亲 的 年 
龄 的 两 位 数 的 倒序 。 例 如 ， 如 果 她 是 73 岁 ， 我 是 37 岁 。 我 们 好 奇 这 种 事 
情 这 些 年 来 及 生 过 几 次 ， 但 很 快 我 们 的 话题 就 偏转 到 其 他 地 方 ， 所 以 没 
有 得 到 答案 。 





“我 回 家 后 ， 发 现 我 们 的 年 龄 互 为 倒序 的 事情 至 今 为 止 友 生 过 6 次 。 
我 还 发 现 ， 如 果 顺 利 的话 接 下 来 儿 年 还 会 再 遇 到 一 次 ， 并 且 在 那 之 后 如 
果 我 们 真 的 很 扯 运 ， 还 能 再 过 到 一 次 。 换 句 话 说 ， 它 总 共 可 能 发 生 8 
次 。 所 以 问题 是 ， 我 现在 年 龄 多 大 ? ” 





编写 一 个 Python 程序 ， 为 这 个 谜 题 搜 索 答 案 。 提 示 : 你 可 能 会 发 现 
字符 串 方 法 zfi11 有 用 。 


解答 : http://thinkpython2.com/code/cartalk3.py。 





[1] 作者 在 上 一 段 话 中 模仿 了 Gadsby 的 风格 ， 不 使 用 字母 “e”， 所 以 说 话 
的 风格 很 怪 。 因 此 到 这 里 ， 他 束 说 “All right, PIH stop now”， 意 思 是 停 





止 这 种 怪异 风格 的 描述 。 但 这 个 意思 无 法 在 译文 中 表达 。 上 一 段 话 的 英 
文 原文 是 : “In fact, it is difficult to construct a solitary thought without 
using that most common symbol. It is slow at first, but with caution and 


hours of training you can gradually gain facility. 一 -一 译 者 注 


第 10 草 ”列表 


本 章 介 绍 Python 语 言 最 有 用 的 内 置 类 型 之 一 : 列表 。 你 还 能 学 到 更 
多 关于 对 象 的 知识 ， 以 及 同一 个 对 象 有 两 个 或 更 多 变量 时 会 发 生 什么 。 





10.1 列表 是 一 个 序列 


和 字符 串 相 似 ， 列 表 Aist) 是 值 的 序列 。 在 字符 串 中 ， 这 些 值 是 
字符 ; 在 列表 中 ， 它 可 以 是 任何 类 型 。 列 表 中 的 值 称 为 元 素 
(element) ， 有 时 也 称 为 列表 项 (item) 。 





创建 一 个 列表 有 好 几 种 方式 。 其 中 最 简单 的 方式 是 使 用 方 括号 《〈[ 
与 ] ) 将 元 素 括 起 来 。 


[10, 20, 30, 40] 
['crunchy frog', ‘ram bladder’, ‘lark vomit’ ] 





第 一 个 例子 是 4 个 整数 的 列表 。 第 二 个 例子 是 3 个 字符 串 的 列表 。 列 
表 中 的 元 素 并 不 一 定 非 得 是 同一 类 型 的 。 下 面 的 列表 包含 了 一 个 字符 
串 、 一 个 浮 后 数 、 一 个 整数 及 瞧 ! ) 为 一 个 列表 : 








['spam', 2.0, 5, [10, 20]] 


IRP EMIR EREM 〈nested) 。 


不 包含 任何 元 素 的 列表 称 为 空 列表 ， 可 以 使 用 空 方 括号 [] 来 创建 
空 列表 。 


如 你 所 预料 的 ， 列 表 可 以 赋值 给 变量 : 


>>> cheeses = ['Cheddar', ‘Edam', 'Gouda'] 
>>> numbers = [42, 123] 

>>> empty = [] 

>>> print(cheeses, numbers, empty) 


['Cheddar', 'Edam', 'Gouda'] [42, 123] [] 





10.2 ”列表 是 可 变 的 


访问 列表 元 系 的 语法 和 访问 字符 串 中 字符 的 语法 是 一 样 的 一 一 使 用 
方 插 写 操作 符 。 方 括号 中 的 表达 式 指 定 下 标 。 请 记得 下 标 是 从 0 开始 
的 : 





>>> cheeses[@] 
"Cheddar' 





和 字符 串 不 同 的 是 ， 列 表 是 可 变 的 。 当 方 括号 操作 符 出 现在 赋值 语 
句 的 左 侧 时 ， 它 用 于 指定 列表 中 哪个 元 系 会 被 赋值 。 


>>> numbers = [42, 123] 


>>> numbers[1] = 5 
>>> numbers 
[42, 5] 








numbers 的 第 1 位 元 素 ， 原 先 的 值 是 123， 现 在 是 5 了 。 
图 10-1 显 示 了 cheeses 、numbers 和 empty 的 状态 图 。 
list 
cheeses —> 0 — > 'Cheddar' 
1 — > 'Edam' 
2 — => 'Gouda' 


numbers — > 





图 10-1 ”状态 图 





在 图 10-1 中 ， 外 和 面 写 有 “list” 的 图 框 表示 列表 ， 里 面 显 示 的 是 列表 中 
的 元 素 。cheeses 变量 引用 着 一 个 列表 ， 包 含 3 个 元 系 ， 下 标 分 别 是 0、 
1 和 2。numbers 包含 两 个 元 素 ; 本 图 显示 了 其 第 二 个 元 素 从 123 重 新 赋 
值 为 5 的 过 程 。empty 引用 一 个 没有 任何 元 素 的 空 列 表 。 


列表 下 标 和 字符 串 下 标 工作 方式 相同 。 





o 任何 整 型 的 表达 式 都 可 以 用 作 下 标 。 
。 如 果 和 尝试 读 写 一 个 并 不 存在 的 元 素 ， 则 会 得 到 IndexError 。 
。 如 果 下 标 是 负数 ， 则 从 列表 的 结尾 处 反 过 来 数 下 标 访问 。 








in 操作 符 也 可 以 用 于 列表 。 


>>> cheeses = ['Cheddar', ‘Edam', "Gouda | 
>>> 'Edam' in cheeses 

True 

>>> 'Brie' in cheeses 


False 





10.3” 授 历 一 个 列表 





避 历 一 个 列表 元 素 的 最 常见 方式 是 使 用 for 循环 。 语 法 和 字符 串 的 
志 历 相同 : 


for cheese in cheeses: 
print(cheese) 


| 


在 只 需要 读 取 列表 的 元 素 本 身 时 ， 这 样 的 遍历 方式 很 好 。 但 如 果 需 
要 写 入 或 者 更 新 元 素 时 ， 则 需要 下 标 。 一 个 常见 的 方式 是 使 用 内 置 函 
数 range 和 jlen : 














for i in range(len(numbers) ): 
numbers[i] = numbers[i] * 2 





这 个 循环 遍历 列表 ， 并 更 新 每 个 元 素 。len 返回 列表 中 元 素 的 个 
数 。range 返回 一 个 下 标的 列表 ， 从 0 到 n -1， 其 中 n 是 列表 的 长 度 。 每 
次 迭代 时 ，i 获得 下 一 个 元 素 的 下 标 。 循 环 体 中 的 赋值 语句 使 用 i 来 读 
取 元 素 的 旧 值 并 赋值 为 新 值 。 








在 空 列表 上 使 用 for 循环 ， 则 循环 体 从 不 会 被 运行 : 


for x in []: 
print('This never happens." ) 





BAJRA UER A UE, RH TIRE — PS 
元 素 。 下 面 的 列表 长 度 是 4; 





['spam', 1, ['Brie', 'Roquefort', 'Pol le Veg'], [1, 2, 3]] 


| O 
10.4 列表 操作 


+ 操作 符 可 以 拼接 列表 : 


>>> a = [1, 2, 3] 


>>> b = [4, 5, 6] 
>>> c=a+b 

>>> C 

[1, 2, 3, 4, 5, 6] 





* 操 作 符 重 复 一 个 列表 多 次 : 
>>> [0] * 4 


[1, 2, 3, 1, 2, 3, 1, 2, 3] 





第 一 个 例子 重复 列表 [8] 四 次 。 第 二 个 例子 重复 列表 [1，2，3] = 
次 。 


10.5 ”列表 切片 


切片 操作 符 也 可 以 用 于 列表 : 





>>> t = ['a', 'b', 'c', 'd', 'e', 'f'] 
>>> t[1:3] 


['b', 'c'] 
>>> t[:4] 
['a', By 'c', 'd'] 
>>> t[3:] 
d's ‘e', 'f'] 





如 果 省 略 掉 第 一 个 下 标 ， 则 切片 从 列表 开头 开始 。 如 果 省 略 掉 第 二 
个 下 标 ， 则 切片 至 列表 结尾 结束 。 如 果 两 个 下 标 都 省 略 ， 则 切片 就 是 整 
个 列表 的 副本 。 








因为 列表 是 可 变 的 ， 所 以 在 对 列表 进行 修改 操作 之 前 ， 复 制 一 份 是 
很 有 用 的 。 


如 果 切 片 操作 符 出 现在 赋值 语句 的 堪 侧 ， 则 可 以 更 新 多 个 元 素 : 


>>> t = ['a', "b"; "c" 
>>> t[1:3] = ['x', 'y' 
>>> t 

[a's xs "Y's 'd', ' i 





10.6 ”列表 方法 


Python 为 列表 提供 了 不 少 操作 方法 。 例 如 ，append 可 以 在 列表 尾 
部 添加 新 的 元 素 : 


>>> t = ['a', 'b' 
>>> t.append('d') 
>>> t 

fat 


['a', 'b', i ' 
[‘d', *e*] 
.extend(t2) 





这 个 例子 中 t2 没有 被 修改 。 


sort 方法 将 列表 中 的 元 么 从 低 到 高 重新 排列 : 


>>> t = ['d', 
>>> t.sort() 
>>> t 

[ta's b" 





列表 的 大 多 数 方法 全 是 无 返回 值 的 。 它 们 修改 列表 ， 并 返回 None 
。 如 果 不 小 心 写 了 t = t.sort() ， 你 可 能 对 结果 感到 很 失望 。 


10.7 PRIN. EEFE fi 


如 休想 把 列表 中 所 有 的 元 素 加 起 来 ， 可 以 使 用 下 面 这 样 的 循环 : 


def add_all(t): 
total = 6 
for x int: 
total += x 


return total 





total 被 初始 化 为 0。 每 次 循环 中 ，x 获取 列表 中 的 一 个 元 素 。+= 
操作 符 为 更 新 变量 提供 了 一 个 简洁 的 方式 。 这 个 增加 赋值 语句 : 


total += x 


等 价 于 : 


total = total + x 


随 看 循环 的 运行 ，total 会 容积 列表 中 的 值 的 和 ; 这 样 使 用 一 个 变 


量 有 时 称 为 累加 器 (accumulator) 。 


对 列表 元 素 轩 加 是 如 此 常见 的 操作 ， 以 至 于 Python 提 供 了 一 个 内 置 
函数 sum : 


>>> t = [1, 2, 3] 
>>> sum(t) 
6 








类 似 这 样 ， 将 一 个 序列 的 元 素 值 合 起 来 到 一 个 单独 的 变量 的 操作 ， 
有 时 称 为 化 简 (reduce) 。 





有 时 候 你 想 要 在 遍历 一 个 列表 的 同时 构建 另 一 个 列表 。 例 如 ， 下 面 
的 函数 接收 一 个 字符 串 列表 ， 并 返回 一 个 新 列表 ， 其 元 素 是 大 写 的 字符 
Hi: 





def capitalize_all(t): 
res = [] 
for s in t: 
res.append(s.capitalize()) 


return res 





res 初始 化 为 一 个 空 列表 ; 每 次 循环 ， 我 们 给 它 附 加 一 个 元 素 。 所 
以 res 也 是 一 种 累加 器 。 


Acapitalize_all 这 样 的 操作 ， 有 时 被 称 为 映射 (map), HX 
它 将 一 个 函数 〈 在 这 个 例子 里 是 capitalize 方法 ) “映射 ?到 一 个 序列 


的 每 个 元 素 上 。 


另 一 个 常见 的 操作 是 选择 列表 中 的 某 些 元 素 ， 并 返回 一 个 子 列表 。 
例如 ， 下 面 的 函数 接收 一 个 字符 串 列 表 ， 并 返回 那些 只 包含 大 写字 母 的 
FHR: 


def only_upper(t): 
res = [] 
for s in t: 
if s.isupper(): 
res.append(s) 


return res 





isupper 是 一 个 字符 串 方法 ， 当 字符 串 中 只 包含 大 写字 母 时 返回 


True 。 


类 似 only_upper 这 样 的 操作 称 为 过 小 Cfilter) ， 因 为 它 选 择 列表 
中 的 东 些 元 素 ， 并 过 滤 邱 其 他 的 元 素 。 


列表 的 绝 大 多 数 第 用 操作 都 可 以 用 映射 、 过 小 和 化 简 的 组 合 来 表 
IK. 


10.8 删除 元 素 





从 列表 中 删除 元 素 ， 有 多 种 方法 。 如 果 知 道 元 素 的 下 标 ， 可 以 使 
用 pop : 





>>> t = ['a', 'b', 'c'] 
>>> x = t.pop(1) 





pop 修改 列表 ， 并 返回 被 删除 掉 的 值 。 如 果 不 提供 下 标 ， 它 会 删除 
并 返回 最 后 一 个 元 素 。 


如 果 不 需 要 使 用 删除 的 值 ， 可 以 使 用 del 操作 符 : 





>>> t = ['a', 'b' 
>>> del t[1] 
>>> t 


aly te 








如 果 知 道 要 删除 的 元 素 〈 而 不 是 下 标 ) ， 则 可 以 使 用 remove : 


>>> t = ['a', 'b', 'c'] 
>>> t. 本 b') 
>>> t 


ay Me" 





remove 方法 的 返回 值 是 None 。 





在 要 删除 多 个 元 素 ， 可 以 使 用 del 和 切片 下 标 : 





>>> t = ['a', 'b', 'c', 'd', 'e', 'f'] 


>>> del t[1:5] 
>>> t 
['a', 'f'] 





一 样 ， 切 片 会 选择 所 有 的 元 素 ， 直 到 第 二 个 下 标 〈 并 不 包 


I> 
WY 


10.9 ”列表 和 字符 串 





字符 串 是 字符 的 序列 ， 而 列表 是 值 的 序列 ， 但 字符 的 列表 和 字符 串 
并 不 相同 。 告 要 将 一 个 字符 串 转 换 为 一 个 字符 的 列表 ， 可 以 使 用 水 
list : 


>>> S = 'spam' 

>>> t = list(s) 

>>> t 

Ls"; 'p', ‘a’, 'm'] 





由 于 1ist 是 内 置 函 数 的 名 称 ， 所 以 应 当 尽 量 避 免 使 用 它 作为 变量 
名 称 。 我 也 避免 使 用 1 ， 因 为 它 看 起 来 太 像 数 字 1 了 。 因 而 我 使 用 t 。 


list 函数 会 将 字符 串 拆 成 单个 的 字母 。 如 果 想 要 将 字符 串 拆 成 早 
词 ， 可 以 使 用 split 方法 : 
>>> s = 'pining for the fjords' 


>>> t = s.split() 
>>> t 


['pining', 'for', 'the', ‘fjords'] 





split 还 接收 一 个 可 选 的 形 参 ， 称 为 分 隔 符 (delimiter) ， 用 于 指 
定 用 哪个 字符 来 分 隔 单词 。 下 面 的 例子 中 使 用 连 字符 C) 作为 分 隔 
A: 





>>> S = 'spam-spam-spam' 
>>> delimiter = '-' 

>>> t = s.split(delimiter) 
>>> t 

['spam', 'spam', 'spam'] 





join 是 split 的 逆 操 作 。 它 接收 字符 串 列表 ， 并 拼接 每 个 元 
Ro join 是 字符 串 的 方法 ， 所 以 必须 在 分 阳 符 上 调用 它 ， 并 传 入 列表 
作为 实 参 : 
>>> t = ['pining', 'for', 'the', 'fjords'] 
>>> delimiter = ' ' 


>>> s = delimiter.join(t) 
>>> S 


'pining for the fjords' 





在 这 个 例子 里 ， 分 隔 符 是 空格 ， 所 以 join 会 在 每 个 单词 之 间 放 一 
个 空格 。 知 想 不 用 空格 直接 连接 字符 串 ， 可 以 使 用 空 字符 串 ”" 作为 分 


Tyke 


La TF o 





10.10 对象 和 值 


如 采 我 们 运行 下 面 的 赋值 语句 : 


a = 'banana' 


b = 'banana' 





我 们 知道 a 和 b 都 是 一 个 字符 串 的 引用 。 但 我 们 不 知道 它们 是 否 指 
癌 同 一 个 字符 串 。 有 两 种 可 能 的 状态 ， 如 图 10-2 所 示 。 


a —> ’banana’ a 
l 会 banana' 
b —> ’banana ha 
图 10-2 ”状态 图 


一 种 可 能 是 ，a 和 b 引用 着 不 同 的 对 象 ， 它 们 的 值 相同 。 男 一 种 情 
况 下 ， 它 们 指向 同一 个 对 象 。 








要 检查 两 个 变量 是 否 引 用 同一 个 对 象 ， 可 以 使 用 is 操作 符 


>>> a = 'banana' 
b = 'banana' 





在 这 个 例子 里 ，Python 只 建立 了 一 个 字符 串 对 象 ， 而 a 和 b 都 引用 


但 当 你 新 建 两 个 列表 时 ， 会 得 到 两 个 对 象 : 


>>>a= [1, 2, 3] 
>>> b = [1, 2, 3] 
>>> a is b 

False 





所 以 状态 图 如 图 10-3 所 示 。 


a —> [1,2,3] 
b — [1,2,3] 
图 10-3 KAA 


在 这 个 例子 里 我 们 会 说 这 两 个 列表 是 相等 的 〈equivalent) ， 因 为 
它们 有 相同 的 元 素 ， 但 它们 不 是 相同 的 (identical〉， 因 为 它们 并 不 是 
同一 个 对 象 。 如 有 果 两 个 对 象 相同 ， 则 必然 也 相 每 ， 但 如 有 果 两 个 对 象 相 
等 ， 并 不 一 定 相 同 。 





到 目前 为 止 ， 我 们 都 不 加 区 分 地 使 用 “对 象 " 和 “ 值 "”， 但 更 精确 的 说 
法 是 对 象 有 一 个 值 。 如 果 求 值 [1,2,3] ， 会 得 到 一 个 列表 对 象 ， 它 的 值 
古 一 个 整数 的 序列 。 如 果 另 一 个 列表 包含 相同 的 元 素 ， 我 们 说 它 有 相同 
的 值 ， 但 它们 不 是 同一 个 对 象 。 


10.11 别名 


如 果 a 引用 一 个 对 象 ， 而 你 赋值 b = a ， 则 两 个 变量 都 会 引用 同一 
个 对 象 


>>> a = [1, 2, 3] 
>>> b=a 

>>> bisa 

True 





这 里 的 状态 图 如 图 10-4 所 示 。 


a 
aS 
» > 112,31 





图 10-4 “状态 图 


变量 和 对 象 之 间 的 关联 关系 称 为 引用 Creference) 。 在 这 个 例子 
里 ， 有 两 个 指 同 同一 对 象 的 引用 。 





当 一 个 对 象 有 多 个 引用 ， 并 且 引 用 有 不 同 的 名 称 时 ， 我 们 说 这 个 对 
象 有 别名 Caliased) 。 





如 果 有 别名 的 对 象 是 可 变 的 ， 则 对 一 个 别名 的 修改 会 影响 为 一 个 : 


>>> b[6] = 42 





里 然 这 种 行为 可 能 很 有 9 用， 但 它 也 容易 导致 错误 。 通 常 来 说 ， 当 处 
理 可 变 对 象 时 ， 避 免 使 用 别名 会 更 加 安全 。 


对 于 字符 串 这 样 的 不 可 变 对 象 ， 别 名 则 不 会 带 来 问题 。 在 下 面 的 例 
Ts 


a = 'banana' 
b = 'banana' 





不 论 a 和 b 是 否 引 用 同一 个 字符 串 ， 痢 不 会 有 什么 区 别 。 


10.12 ”列表 参数 


当 你 将 一 个 列表 传递 给 函数 中 ， 函 数 会 得 到 列表 的 一 个 引用 。 如 果 
函数 中 修改 了 列表 ， 则 调用 者 也 会 看 到 这 个 修改 。 例 如 ，delete_head 
函数 删除 列表 中 的 第 一 个 元 素 : 


def delete _head(t): 
del t[@] 





下 面 使 用 它 : 





>>> letters = ['a', 'b', 'c'] 
>>> delete_head(letters) 

>>> letters 

Pe “er 


| 


参数 t 和 变量 letters 是 同一 个 对 象 的 别名 。 栈 图 如 图 10-5 所 示 。 


因为 列表 被 两 个 帧 共 圣 ， 所 以 我 将 它 画 在 中 间 。 


delete_head 


图 10-5” 栈 图 











区 分 修改 列表 的 操作 和 新 建 列表 的 操作 十 分 重要 。 例 如 ，append 
方法 修改 列表 ， 但 是 + 操作 符 新 建 一 个 列表 : 


>>> t1 = [1, 2] 

>>> t2 = t1.append(3) 
>>> t1 

[1, 2, 3] 

>>> t2 


None 





append 修改 列表 ， 返 回 None 。 


>>> t3 = tl + [4] 
>>> t1 
[1, 2, 3] 


>>> t3 
[1, 2, 3, 4] 
>>> t1 





操作 符 + 创 建 一 个 新 列表 ， 而 原始 的 列表 并 不 改变 。 


这 个 区 别 ， 在 编写 希望 修改 列表 的 函数 时 十 分 重要 。 例 如 ， 下 面 的 
函数 并 不 会 删除 列表 的 开头 : 


def bad_delete_head(t): 
t = t[1:] 





切片 操作 会 新 建 一 个 列表 ， 而 赋值 操作 会 让 tt 引用 指向 这 个 新 的 列 
表 ， 但 这 些 操作 对 调用 者 没有 影响 。 


>>> t4 = [1, 2, 3] 

>>> bad_delete_head(t4) 
>>> t4 

[1, 2, 3] 





fEbad_delete head 的 开头 ，t 和 t4 指向 同一 个 列表 。 在 函数 最 
后 ，t 指向 了 一 个 新 的 列表 ， 但 t4 仍然 指向 原先 的 那个 没有 改变 的 列 


表 。 





另外 一 种 方法 是 编写 函数 创建 和 返回 一 个 新 的 列表 。 例 如 ，tail 


返回 除了 第 一 个 以 外 所 有 的 元 系 的 列表 : 


def tail(t): 
return t[1:] 





这 个 函数 不 会 修改 原始 列表 。 下 面 的 代码 展示 如 何 使 用 它 : 


>>> letters = ['a', 'b', 'c'] 
>>> rest = = taiete) 

>>> rest 

poe 6 





10.13 ”调试 


对 列表 〈 以 及 其 他 可 变 对 象 ) 的 不 慎 使 用 ， 可 能 会 导致 长 时 间 的 调 
试 。 下 面 介绍 一 些 常见 的 陷阱 ， 以 及 如 何 避 免 它们 。 


1. 大 部 分 列表 方法 都 是 修改 参数 并 返回 None 的 。 这 和 字符 串 的 方 
法 正 相 反 ， 字 符 串 方法 新 建 一 个 字符 串 ， 并 留 看 原始 的 字符 串 不 动 。 





如 果 你 习惯 于 写 下 面 这 样 的 字符 串 代 码 : 


word = word.strip() 





则 容易 倾向 于 这 么 写 列表 代码 : 














t = t.sort() 





因为 sort 返回 None ， 接 下 来 对 t 进行 的 操作 很 可 能 会 失败 。 





在 使 用 列表 方法 和 操作 符 之 前 ， 应 当 仔 细 阅 读 文 档 ， 并 在 交互 模式 
中 测试 它们 。 


2. 选择 一 种 风格 ， 并 坚持 不 变 。 





列表 的 问题 之 一 是 同样 的 事情 有 太 多 种 可 用 的 做 法 。 例 如 ， 要 从 列 
表 中 删除 一 个 元 素 ， 可 以 使 用 pop 、remove 、del 或 者 甚至 是 切片 赋 
值 。 


要 添加 一 个 元 素 ， 可 以 使 用 append 方法 或 者 + 操作 符 。 假 设 t 是 一 
个 列表 ，x 是 一 个 列表 元 素 ， 下 面 的 操作 古 正确 的 : 





t.append(x) 
t= t + [x] 
t += [x] 





而 下 面 的 操作 是 错误 的 : 


t.append([x]) 
t = t.append(x) 
t + [x] 


+ H H 
ee 
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七 = 七 + X # 错 ! 








在 交互 模式 中 试验 这 些 例子 ， 确 保 你 明白 它们 的 运行 细 市 。 注 意 只 
有 最 后 一 个 会 导致 运行 时 错误 ;其 他 的 3 个 都 是 合法 的 ， 但 是 它们 的 结 
果 不 正确 。 





3. 通过 复制 来 避免 别 名 。 





如 末 想 要 使 用 类 似 sort 的 方法 来 修改 参数 ， 但 又 需要 保留 原先 的 
列表 ， 可 以 复制 一 个 副本 : 


>>> t = [3, 1, 2] 
>>> t2 = t[:] 

>>> t2.sort() 

>>> t 

[3, 1, 2] 

>>> t2 

[1, 2, 3] 





在 这 个 例子 里 也 可 以 使 用 内 置 函 数 sorted ， 它 会 返回 一 个 新 的 排 
好 序 的 列表 ， 并 且 留 着 原先 的 列表 不 动 。 





>>> t2 = sorted(t) 
>>> t 

[3, 1, 2] 

>>> t2 

[1, 2, 3] 


[L _”fűñk 
10.14 术语 表 


列表 Aist) : 值 的 序列 。 


JCA (element) : 列表 (或 其 他 序列 中 的 一 个 值 ， 也 称 为 列表 
项 。 


REJE (nested list) : 作为 其 他 列表 的 元 素 的 列表 。 


aa (accumulator) : 在 循环 中 用 于 加 和 或 者 累积 某 个 结果 的 变 


增加 赋值 (augmented assignment) : 使 用 类 似 += 操 作 符 来 更 新 变 
量 值 的 语句 。 


化 简 Creduce) : 一 种 处 理 模式 ， 壳 历 一 个 序列 ， 并 将 元 素 的 值 宗 
积 起 来 计算 为 一 个 单独 的 结果 。 








映射 Cmap) : 一 种 处 理 模式 ， 过 历 一 个 序列 ， 对 每 个 元 素 进行 操 
作 。 


WUE Cfilter) : 一 种 处 理 模式 ， 过 有 历 列 表 ， 并 选择 满足 菏 种 条 件 的 
元 素 。 


对 象 Cobject) : 变量 可 以 引用 的 东西 。 对 象 有 类 型 和 值 。 


相等 Cequivalent) : 拥有 相同 的 值 。 








相同 Cidentical) : 是 同一 个 对 象 〈 并 且 也 意味 着 相等 ) 。 
引用 (reference) : 变量 和 它 的 值 之 间 的 关联 。 
别名 (aliasing): 多 个 变量 同时 引用 一 个 对 象 的 情况 。 


分 隔 符 (delimiter) : 用 于 分 隔 字符 串 的 一 个 字符 或 字符 串 。 
10.15 练习 


你 可 以 从 http://thinkpython2.com/code/list_exercises.py 下 载 这 些 练习 
的 解答 。 


练习 10-1 


编写 一 个 名 为 nested_sum 的 阔 数 ， 接 收 一 个 由 内 骨 的 整数 列表 组 
成 的 列表 作为 形 参 ， 并 将 内 髓 列表 中 的 值 全 部 加 起 来 。 例 如 : 


>>> t = [[1, 2], [3], [4, 5, 6]] 
>>> nested_sum(t) 
21 





练习 10-2 


编写 一 个 名 为 cumsum 的 函数 ， 接 收 一 个 数字 的 列表 ， 返 回 累计 
Al; 也 惑 是 说 ， 返 回 一 个 新 的 列表 ， 其 中 第; 个 元 素 是 原先 列表 的 前 i+1 
个 元 素 的 和 。 例 如 : 





>>> t = [1, 2, 3] 
>>> cumsum(t) 
[1, 3, 6] 





练习 10-3 


编写 一 个 函数 middle ， 接 收 一 个 列表 作为 形 参 ， 并 返回 一 个 新 列 


表 ， 包 含 除 了 第 一 个 和 最 后 一 个 元 素 之 外 的 所 有 元 素 。 例 如 : 


-> 


t = [1, 2, 3, 4] 
middle(t) 
3] 





练习 10-4 


编写 一 个 名 为 chop 的 函数 ， 接 收 一 个 列表 ， 修 改 它 ， 删 除 它 的 第 
一 个 和 最 后 一 个 元 素 ， 并 返回 None 。 例 如 : 


t = [1, 2, 3, 4] 
chop(t) 

t 

3] 





练习 10-5 


编写 一 个 名 为 is_sorted 的 函数 ， 接 收 一 个 列表 作为 形 参 ， 并 当 列 
表 是 按照 升序 排 好 序 的 时 候 返 回 True ， 人 否则 返回 False 。 


例如 : 


>>> is_sorted([1, 2, 2]) 
True 
>>> is_sorted(['b', 'a']) 
False 





24 >] 10-6 





两 个 单词 ， 如 果 重 新 排列 其 中 一 个 的 字母 可 以 得 到 男 一 个 ， 它 们 互 
为 回 文 (anagram) 。 编 写 一 个 名 为 js_anagram 的 函数 ， 接 收 两 个 字符 
串 ， 当 它们 互 为 回 文 时 返回 True 。 


练习 10-7 


编写 一 个 名 为 has_duplicates 的 函数 接收 一 个 列表 ， 当 其 中 任何 
一 个 元 素 出 现 多 于 一 次 时 返回 True 。 它 不 应 当 修改 原始 列表 。 





练习 10-8 


这 个 练习 谈 的 是 所 谓 的 生日 屠 论 ， 你 可 以 在 
http://en.wikipedia.org/wiki/Birthday_paradox 阅 读 相 关 资 料 。 


如 果 你 的 班级 中 有 23 个 学 生 ， 那 么 其 中 有 两 人 生日 相同 的 概率 有 多 
K? 你 可 以 通过 随机 生成 23 个 生日 的 样本 并 检查 是 否 有 相同 的 匹配 来 估 


计 这 个 概率 。 提 示 : 可 以 使 用 random 模块 中 的 randint 函数 来 生成 随 
机 生日 。 


你 可 以 从 http://thinkpython2.com/code/birthday.py 下 载 解答 。 


练习 10-9 





编写 一 个 函数 ， 读 取 文 件 words .txt ， 并 构建 一 个 列表 ， 每 个 元 素 
古 一 个 单词 。 给 这 个 函数 编写 两 个 版 本 ， 其 中 一 个 使 用 append 方法 ， 
为 一 个 使 用 t= t + [x] 的 用 法 。 哪 一 个 运行 时 间 更 长 ? 为 什么 ? 


解答 : http://thinkpython2.com/code/wordlist.py。 
练习 10-10 


要 检查 一 个 单词 是 否 出 现在 单词 列表 中 ， 可 以 使 用 in 操作 符 ， 但 
由 于 它 需 要 按 顺 序 搜索 所 有 单词 ， 可 能 会 比较 慢 。 








因为 单词 是 按 字母 顺序 排列 的 ， 我 们 可 以 使 用 二 分 碍 找 《〈 也 叫 作 二 
分 搜索 ) 来 加 快速 上 度 。 二 分 查找 的 过 程 类 似 于 在 字典 中 查找 单词 。 从 中 
间 开 始 ， 检 碍 需要 找 的 单词 是 不 是 在 列表 中 间 出 现 的 单词 之 前 ， 如 果 
是 ， 则 继续 用 同样 的 方法 搜索 前 半 部 分 。 侍 则 搜索 后 半 部 分 。 








不 论 哪 种 情形 ， 都 将 搜索 空间 减 小 了 一 半 。 如 果 单 词 列表 有 
113,809 个 单词 ， 那 么 大 概 耗 费 17 步 束 能 找到 单词 ， 或 者 确认 它 不 在 列 
表 之 中 。 


编写 一 个 函数 ijn_bisect ， 接 收 一 个 排 好 序 的 列表 ， 以 及 一 个 目标 





值 ， 当 目标 值 在 列表 之 中 ， 返 回 其 下 标 ， 人 否则 返回 None 。 





或 者 你 可 以 阅读 bisect 模块 的 文档 ， 并 使 用 它 ! 
解答 : http://thinkpython.com2/code/inlist.py。 
练习 10-11 


两 个 单词 ， 如 果 其 中 一 个 是 为 一 个 的 反 向 序列 ， 则 称 它们 为 “反问 
对 ”编写 一 个 程序 找到 单词 表 中 出 现 的 全 部 反 同 对 。 


解答 : http://thinkpython2.com/code/reverse_pair.py。 
练习 10-12 


两 个 单词 ， 如 果 从 每 个 单词 中 交错 取出 一 个 字母 可 以 组 成 一 个 新 的 
单词 ， 我 们 称 它 们 为 “ 互 锁 ” Cinterlocking) 。 例 如 , “shoe” 和 “cold” 可 
以 互 锁 组 成 单词 “schooled”。 


解答 : http://thinkpython2.com/code/interlock.py. "Sif: 这 个 练习 启 
发 目 http:/puzzlers.org 的 一 个 示例 。 


1. 编写 一 个 程序 找到 所 有 互 锁 的 词 。 提 示 : 不 要 穷 举 所 有 的 词 
对 ! 

2. 能 不 能 找到 “三 互 锁 ”的 单词 ? 也 就 是 ， 从 第 一 、 第 二 或 者 第 三 
个 字母 开始 ， 每 第 三 个 字母 合 起 来 可 以 形成 一 个 单词 。 





第 11 章 ”字典 


介绍 另 一 种 内 置 类 型 : 字典 。 字 典 是 Python 最 好 的 语言 特性 之 
很 多 高 效 而 优雅 的 算法 的 基本 构建 块 。 








11.1 字典 是 一 种 映射 





字典 类 似 于 列表 ， 但 更 加 通用 。 在 列表 中 ， 下 标 必须 是 整数 ， 而 
FEF HL, Pts JLP) 可 以 是 任意 类 型 。 





字典 包含 下 标 〈 称 为 键 ) 集合 和 值 集 合 。 每 个 键 都 与 一 个 值 天 
联 。 键 和 值 之 间 的 关联 被 称 为 键 值 对 (key-value pair) ， 或 者 有 时 称 为 
一 项 (item) 。 


用 数学 语言 来 描述 ， 字 典 体 现 了 键 到 值 的 映射 ， 所 以 可 以 说 每 个 
键 “ 映 射 ? 到 一 个 值 。 作 为 示例 ， 我 们 构建 一 个 字典 ， 将 英语 单词 映射 到 
西班牙 语 上 ， 所 以 键 和 值 的 类 型 都 是 字符 串 。 


dict 新 建 一 个 不 包含 任何 项 的 字典 。 因 为 dict 是 内 置 函 数 的 
名 称 ， 应 当 避 免 使 用 它 作 为 变量 名 。 


>>> eng2sp = dict() 
>>> eng2sp 


{} 








per 


这 里 花 插 号 {} 表示 一 个 空 的 字典 。 想 要 给 字典 添加 新 项 ， 可 以 使 


用 方 括号 操作 符 : 


>>> eng2sp['one'] = ‘uno' 





这 一 行 代码 创建 一 个 新 项 ， 将 键 'one' 映射 到 值 'uno' 上 。 如 果 我 
们 再 次 打印 这 个 字典 ， 可 以 看 到 一 个 键 值 对 ， 以 冒号 分 隔 : 


>>> eng2sp 
{'one': ‘uno'} 





这 种 输出 格式 也 同样 是 输入 的 格式 。 例 如 ， 可 以 创建 一 个 包含 3 项 
的 新 字典 : 


>>> eng2sp = {'one': 'uno', 'two': 'dos', 'three': 'tres'} 





但 如 果 你 打印 eng2sp ， 可 能 会 觉得 奇怪 : 


>>> eng2sp 
{'one': 'uno', 'three': ‘tres', two ' : 





字典 中 键 值 对 的 顺序 可 能 并 不 相同 。 如 果 你 在 自己 的 电脑 上 输入 相 
同 的 示例 ， 可 能 会 得 到 另 一 个 不 同 的 结果 。 总 之 ， 字 典 中 各 项 的 顺序 是 
不 可 预料 的 。 





但 这 并 不 是 问题 ， 因 为 字典 的 元 素 从 来 不 使 用 整数 下 标 进行 查找 。 
相对 地 ， 它 使 用 键 来 得 找 对 应 的 值 : 


>>> eng2sp[ two '] 
'dos' 








如 果 键 "two' 总 是 映射 到 值 'dos' 上 ， 那 么 各 项 的 顺序 其 实 并 不 重 
要 。 


如 果 一 个 键 并 不 在 字典 之 中 ， 会 得 到 一 个 异常 : 


>>> eng2sp['four' ] 
KeyError: ‘four' 





len 函数 可 以 用 在 字典 上 ， 它 返回 键 值 对 的 数量 : 


>>> len(eng2sp) 
3 





in 操作 符 也 可 以 用 在 字典 上 ， 它 告诉 你 一 个 值 是 不 是 字典 中 的 键 





是 字典 中 的 值 则 不 算 ) 。 


>>> 'one' in eng2sp 
True 
>>> 'uno' in eng2sp 
False 








在 要 碍 看 一 个 值 是 不 是 出 现在 字典 的 值 中 ， 可 以 使 用 方法 values 
， 它 会 返回 一 个 值 集合 ， 并 可 以 应 用 in 操作 符 : 
>>> vals = eng2sp.values() 


>>> 'uno' in vals 
True 








in 操作 符 对 列表 和 字典 使 用 不 同 的 算法 实现 。 对 于 列表 ， 它 按 顺 








序 搜索 列表 的 元 素 ， 如 8.6 节 所 示 。 当 列表 变 长 时 ， 搜 索 时 间 会 随 之 变 
长 。 


而 对 于 字典 ，Python 使 用 一 个 称 为 散 列 表 (hashtable〉 的 算法 。 它 
有 一 个 值得 注意 的 特点 : 不 管 字 典 中 有 多 少 项 ，in 操作 符 花 费 的 时 间 
都 差不多 。 我 会 在 21.4 节 中 解释 其 中 的 原因 ， 但 最 好 再 多 读 几 章 ， 这 样 
才 可 能 看 懂 解 释 的 内 容 。 











11.2 ”使 用 字典 作为 计数 器 集合 


假设 给 定 一 个 字符 串 ， 你 想 要 计算 每 个 字母 出 现 的 次 数 。 有 几 种 可 
能 的 实现 方法 ; 








1. 你 可 以 创建 26 个 变量 ， 每 个 变量 对 应 字母 表 上 的 一 个 字母 。 接 
独 遍 历 字符 串 ， 对 每 一 个 字符 ， 增 加 对 应 的 计数 匿 。 你 可 能 需要 使 用 一 
个 链 式 条 件 判 断 。 


2. 你 可 以 创建 一 个 包含 26 个 元 聚 的 列表 。 接 着 可 以 将 每 个 字符 转 
换 为 一 个 数字 《使 用 内 置 函 数 ord ) ， 使 用 这 个 数字 作为 列表 的 下 标 ， 
并 增加 对 应 的 计数 器 。 


3. 你 可 以 建立 一 个 字典 ， 以 字符 作为 键 ， 以 计数 器 作为 相应 的 
值 。 第 一 次 遇 到 东 个 字符 时 ， 在 字典 中 添加 对 应 的 项 。 之 后 可 以 增加 一 
个 已 经 存在 的 项 的 值 。 


这 几 种 方案 进行 相同 的 计算 ， 但 实现 计算 的 方式 不 一 样 。 


实现 〈implementation) 是 进行 某 种 计算 的 一 个 具体 方式 ， 有 的 实 
现 比 其 他 的 更 好 。 例 如 ， 字 典 实 现 的 优势 之 一 是 我 们 并 不 需要 预先 知道 
字符 串 中 可 能 出 现 哪些 字母 ， 因 而 只 需 为 真正 出 现 过 的 字母 分 配 空间 。 











下 面 是 这 个 实现 的 代码 : 





def histogram(s): 
d = dict() 
for c ins: 
if c not in d: 
d[c] =1 
else: 
d[c] t= 1 
return d 


| 


这 个 函数 的 名 称 是 直方 图 (histogram) ， 它 是 一 个 统计 学 术语 ， 
表示 一 个 计数 器 (或 者 说 频率 ) 的 集合 。 


函数 的 第 一 行 创建 一 个 空 的 字典 。for 循环 遍历 字符 串 。 每 次 迭代 
中 ， 如 果 字 符 c 不 在 字典 中 ， 我 们 就 创建 一 个 新 项 ， 其 键 是 c ， 其 值 初 
始 化 为 1〈 因 为 我 们 已 经 见 到 这 个 字符 一 次 了 ) 。 如 果 c 已 经 在 字典 之 
中 ， 我 们 增加 d[c] 。 


下 面 是 这 个 函数 的 使 用 方式 : 


>>> h = histogram('brontosaurus ) 
>>> h 
{'a': 1, 'b': 





这 个 直方 图 显示 ， 字 母 'a' Al'b' 出 现 了 1 次 ; 'o' 出 现 了 两 次 ， 依 
此 类 推 。 


字典 有 一 个 方法 get ， 接 收 一 个 键 以 及 一 个 默认 值 。 如 采 键 出 现在 
字典 中 ，get 返回 对 应 的 值 ， 人 否则 它 返 回 默认 值 。 例 如 : 





>>> h = histogram('a') 
>>> h 

{'a': 1} 

>>> h.get('a', @) 

1 


>>> h.get('b', @) 
0 


作为 练习 ， 使 用 get 将 histogram 写 得 更 紧凑 一 些 。 你 应 当 可 以 消 
除 掉 if 语句 。 


11.3 ”循环 和 字典 


WMR Efor 循环 中 使 用 字典 ， 会 过 历 字 典 的 键 。 例 
如 ，print_hist 函数 打印 字典 的 每 一 个 键 以 及 对 应 的 值 : 


def print hist(h): 
for c in h: 
print(c, h[c]) 





下 面 是 这 个 函数 输出 的 样子 : 


>>> h = histogram('parrot') 
>>> print_hist(h) 
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用 内 置 函 数 sorted : 


>>> for key in sorted(h) 
print(key, h[key]) 





114 反问 查找 





给 定 一 个 字典 d 和 键 k ， 找 到 对 应 的 值 v = d[k] 非常 容易 。 这 个 
操作 称 为 查找 Cookup) 。 


但 是 如 果 有 v ， 而 想 找 到 K 时 怎么 办 ? 这 里 有 两 个 问题 : 首先 ， 可 
能 存在 多 个 键 映 射 到 同一 个 值 v 上 。 随 不 同 的 应 用 场景 ， 也 许可 以 挑 其 


中 一 个 ， 或 者 也 许 需要 建立 一 个 列表 来 保存 所 有 的 键 。 其 次 ， 并 没有 可 
以 进行 反 向 查找 的 简单 语法 ， 你 需要 使 用 搜索 。 





下 面 是 一 个 函数 ， 接 收 一 个 值 ， 并 返回 映射 到 该 值 的 第 一 个 键 : 


def reverse_lookup(d, v): 
for k in d: 
if d[k] == v: 
return k 
raise LookupError() 





这 个 函数 是 搜索 模式 的 又 一 个 示例 。 但 它 使 用 了 一 个 我 们 还 没 见 过 


的 语言 特性 ，raise 语句 。 raise 语句 会 生成 一 个 异常 ;在 这 个 例子 
里 它 生成 一 个 LookupError ， 这 是 一 个 内 置 异常 ， 通 常用 来 表示 查找 
操作 失败 。 














如 果 我 们 到 达 了 循环 的 结尾 ， 束 意味 着 v 在 字典 中 没有 作为 值 出 现 
过 ， 所 以 我 们 抛 出 一 个 异常 。 


下 面 的 例子 展示 了 一 个 成 功 的 反问 查找 : 


histogram('parrot') 
reverse_lookup(h, 2) 





以 及 一 个 不 成 功 的 反问 查找 : 


>>> k = reverse lookup(h, 3) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 5, in reverse lookup 


LookupError 





当 你 自己 抛 出 异常 时 ， 效 果 和 Python 抛 出 异常 是 一 样 的 : 它 会 打印 
出 一 个 回调 和 一 个 错误 信息 。 


raise 语句 也 可 以 接收 一 个 可 选 的 参数 用 来 详细 描述 错误 。 例 如 : 


>>> raise LookupError('value does not appear in the dictionary ) 


Traceback (most recent call last): 
File "<stdin>", line 1, in ? 
LookupError: value does not appear in the dictionary 











反 疝 但 找 远 远 慢 于 正 疝 查找 ， 如 果 频 繁 这 么 做 ， 或 者 字典 非 第 大 
时 ， 会 对 程序 的 性 能 有 很 大 影响 。 


11.5 字典 和 列表 


列表 可 以 在 字典 中 以 值 的 形式 出 现 。 例 如 ， 如 果 你 过 到 一 个 将 字母 
映射 到 频率 的 字典 ， 可 能 会 想 要 反 转 它 ;， 也 就 是 说 ， 建 立 一 个 字典 ， 将 
频率 映射 到 字母 上 。 因 为 可 能 出 现 多 个 字母 频率 相同 的 情况 ， 在 反 转 的 
字典 中 ， 每 项 的 值 应 当 是 字母 的 列表 。 


这 里 是 一 个 反 转 字典 的 函数 : 


def invert dict(d): 
inverse = dict() 
for key in d: 
val = d[key] 
if val not in inverse: 
inverse[val] = [key] 
else: 


inverse[val].append(key ) 
return inverse 





每 次 循环 中 ，key Md 中 获得 一 个 键 ， 而 val 获得 相应 的 值 。 如 果 
val 不 在 inverse 字典 中 ， 意 味 着 我 们 还 没有 见 到 过 它 ， 所 以 新 建 一 





项 ， 并 将 它 初始 化 为 一 个 单 件 (singleton， 即 只 包含 一 个 元 素 的 列 
R) 。 人 否则 我 们 已 经 见 过 这 个 值 了 ， 因 此 将 相应 的 键 附 加 到 列表 末尾 。 


下 面 是 一 个 示例 : 


>>> hist = histogram('parrot') 

>>> hist 

{a 1 PT 2 “ts LT, to's L} 
>>> inverse = invert dict(hist) 

>>> inverse 
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图 11-1 是 显示 hist 和 inverse 的 状态 图 。 字 典 使 用 一 个 上 方 标 
明 dict 的 图 框 表 示 ， 内 部 包含 键 值 对 。 如 果 值 是 整数 、 浮 点 数 或 字符 
串 ， 我 会 把 它们 画 到 图 框 内 ， 但 我 常常 会 将 列表 国 在 图 框 之 外 ， 以 便 保 
持 状 态 图 的 简洁 。 


dict dict list 


inv 





图 11-1 状态 图 


如 本 例 所 示 ， 列 表 可 以 用 作 字 典 的 值 ， 但 它们 不 能 用 作 键 。 如 条 符 
试 的 话 ， 会 得 到 如 下 的 结果 : 


>>> t = [1, 2, 3] 

>>> d = dict() 

>>> d[t] = ‘oops’ 

Traceback (most recent call last): 
File "<stdin>", line 1, in ? 


TypeError: list objects are unhashable 





之 前 我 提 到 过 字典 是 通过 散 列 表 的 方式 实现 的 ， 这 意味 着 键 必 须 是 
可 散 列 Chashable) 的 。 


散 列 是 一 个 函数 ， 接 收 《〈 任 意 类 型 ) 的 值 并 返回 一 个 整数 。 字 典 
使 用 这 些 被 称 为 散 列 值 的 整数 来 保存 和 碍 找 键 值 对 。 


这 和 套 系 统 当 键 不 可 变 时 ， 可 以 正确 工作 。 但 如 果 像 列表 这 样 ， 键 是 
可 变 的 话 ， 则 会 有 不 好 的 事情 发 生 。 例 如 ， 新 建 一 个 键 值 对 时 ，Python 
将 键 进行 散 列 并 存储 到 对 应 的 地 方 。 如 果 修 改 了 键 并 再 次 散 列 ， 它 会 指 
问 一 个 不 同 的 地 方 。 在 那 种 情况 下 ， 会 导致 同一 个 键 有 两 个 条 目 ， 或 者 
可 能 找 不 到 某 个 键 。 不 论 如 何 ， 字 典 将 无 法 正确 工作 。 


因此 键 必须 是 可 散 列 的 ， 而 类 似 列表 这 样 的 可 变 类 型 是 不 可 散 列 
的 。 绕 过 这 种 限制 的 最 简单 办 法 是 使 用 元 组 ， 下 一 半 会 有 详细 介绍 。 


因为 字典 是 可 变 的 ， 它 也 不 能 用 作 键 ， 但 它 可 以 用 作 字 上 典 的 值 。 


11.6 i 


如 果 你 尝试 过 6.7 节 中 的 fibonacci 函数 ， 可 能 会 注意 到 ， 提 供 的 
参数 越 大 ， 函 数 运行 的 时 间 越 长 ， 并 且 运 行 时 间 增 长 很 快 。 


Y 


为 了 明白 为 什么 会 这 样 ， 考 虑 图 11-2， 它 展示 了 fibonocci K 
数 n=4 时 的 调用 图 。 


调用 图 显示 了 一 组 函数 帧 ， 并 用 箭头 将 函数 的 帧 和 它 调 用 的 函数 帧 
连接 起 来 。 n=4 的 fibonacci 调用 了 n=3 和 n=2 的 
fibonacci 。 同 样 地 ，n=3 的 fibonacci 调用 了 n=2 和 n=1 的 
fibonacci 。 依 此 类 推 。 


数 一 下 fibonacci(6) 和 fibonacci(1) 被 调用 了 多 少 次 。 这 是 本 
问题 的 一 个 很 低 效 的 解决 方案 ， 而 且 当 参数 变 大 时 ， 事 情 会 变 得 更 糟 。 





一 个 解决 办 法 是 记录 已 经 计算 过 的 值 ， 并 将 它们 保存 在 一 个 字典 
中 。 将 之 前 计算 的 值 保存 起 来 以 便 后 面 使 用 的 方法 称 为 备 访 
(memo) 。 下 和 面 是 一 个 使 用 了 备 态 的 fibonacci 版 本 : 


known = {0:0, 1:1} 


def fibonacci(n): 
if n in known: 
return known[n] 


res = fibonacci(n-1) + fibonacci(n-2) 
known[n] = res 
return res 









fibonacci 


n —>= 4 










fibonacci 
n —>= 2 
fibonacci fibonacci 
n —> 1 n —>= 0 


fibonacci 
n —>= 3 
fibonacci fibonacci 
n 一 -= 2 n —> 1 
fibonacci fibonacci 
n 一 = 1 n 一 = 0 


known 是 一 个 用 来 记录 我 们 已 知 的 Fibonacci 数 的 字典 。 开 始 时 它 有 
两 项 : 0 映射 到 0， 以 及 1 映射 到 1。 












图 11-2 调用 图 





每 当 fibonacci 被 调用 时 ， 它 会 先 检查 known 。 如 果 结 果 已 经 存 
在 ， 则 可 以 立即 返回 。 如 果 不 存 在 ， 它 需要 计算 这 个 新 值 ， 将 其 添加 进 
字典 ， 并 返回 。 

如 果 你 运行 fibonacci 的 这 个 版 本 ， 并 将 其 与 原始 版 本 进行 比较 ， 你 
会 发 现 ， 这 个 版 本 快 得 多 。 


11.7 全 局 变量 


在 前 一 个 例子 中 ，known 是 在 函数 之 外 创建 的 ， 所 以 它 属 于 被 称 
为 、main_ ”的 特殊 帧 。_main_ _ 之 中 的 变量 有 时 被 称 为 全 局 变量 ， 
因为 它们 可 以 在 任意 函数 中 访问 。 和 局 部 变量 在 函数 结束 时 就 消失 不 
同 ， 全 局 变量 可 以 在 不 同 函 数 的 调用 之 间 持 和 久 存 在 。 








全 局 变量 常常 用 作 标志 Clag); 它 是 一 种 布尔 变量 ， 可 以 标志 一 
个 条 件 是 否 为 真 。 例 如 ， 有 的 函数 使 用 一 个 叫 verbose 的 标志 来 控制 输 
出 的 详细 程度 : 





verbose = True 


def example1(): 
if verbose: 


print('Running example1' ) 
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CG 


been called = False 


def example2(): 
been called = True 





但 当 你 运行 它 时 ， 会 发 现 been_called 的 值 并 不 会 变化 。 问 题 在 
于 函数 example2 会 新 建 一 个 局 部 变量 been_called 。 局 部 变量 在 函数 








结束 时 就 会 消失 ， 并 且 对 全 局 变量 没有 任何 影 啊 。 


been_called = False 


def example2(): 
global been_called 
been_called = True 





global 语句 告诉 编译 器 , “在 这 个 函数 里 ， 当 我 说 been_called 
时 ， 我 指 的 是 全 局 变量 ;不 要 新 建 一 个 局 部 变量 。” 





下 面 是 一 个 尝试 更 新 全 局 变量 的 例子 : 


count = 0 


def example3(): 
count = count + 1 


UnboundLocalError: local variable 'count' referenced before assignment 





Python 会 假设 count 是 局 部 的 ， 在 这 种 假设 下 你 在 写 入 它 之 前 先 读 
取 了 。 和 解决 方案 也 是 声明 count 为 全 局 变量 。 


def example3(): 
global count 
count += 1 

















如 果 全 局 变量 指向 的 是 可 变 的 值 ， 可 以 不 用 声明 该 变量 就 可 以 修改 
该 值 : 


known = {0:0, 1:1} 


def example4(): 
known[2] = 1 
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果 想 要 给 全 局 变量 重新 赋值 ， 则 需要 声明 它 : 





def example5(): 
global known 
known = dict() 














全 局 变量 很 有 用， 但 是 如 果 使 用 太 多 ， 并 且 频 繁 修改 ， 可 能 会 让 代 
码 比 较 难 调试 。 


11.8 ”调试 


在 使 用 更 大 的 数据 集 时 ， 通 过 打印 和 手动 检查 输出 的 方式 来 调试 已 
经 变 得 很 茶 拙 了。 下面 是 一 些 调 试 大 数据 集 的 建议 。 


缩小 输入 
如 果 可 能 ， 减 小 数据 集 的 尺寸 。 例 如 ， 程 序 如 果 读 入 文本 文件 ， 可 


以 从 开头 10 行 开始 ， 或 者 使 用 你 能 找到 的 最 小 样本 。 你 可 以 编辑 文件 本 
和 ,或 者 (更 好 地 ) 修改 程序 让 它 只 读 入 前 n 行 。 





如 果 出 现 了 错误 ， 可 以 调 小 n ， 小 到 足够 展现 出 错误 的 最 小 程度 ， 
并 在 修改 之 后 逐渐 增 大 n 。 


检查 概要 信息 和 类 型 


与 其 打印 和 检查 整个 数据 集 ， 可 以 考虑 打印 出 数据 的 概要 信息 例 
如 ， 字 典 中 条 目的 数量 ， 或 者 一 个 列表 中 数 的 和 。 





运行 时 错误 的 一 个 币 见 原因 是 某 个 值 的 类 型 不 对 。 调 试 这 种 错误 
时 ， 常 常 只 需要 打印 出 值 的 类 型 就 足够 了 。 





J 5 A Rr Ee 





有 时 候 可 以 写 代 人 码 自动 检查 错误 。 人 例如， 如果 你 要 计算 一 系列 数 的 
平均 值 ， 可 以 检查 结果 是 否 比 列表 中 最 大 的 数 小 ， 或 者 比 最 小 的 数 大 。 
这 种 检查 称 为 “健全 检查 ”(sanity check) ， 因 为 它 会 发 现 那 些 “ 发 疯 ” 的 
结果 。 


男 一 种 检查 可 以 对 比 两 种 不 同 的 计算 的 结果 ， 查 看 它们 是 否 一 致 。 
这 样 的 检查 称 为 “一 致 性 检查 ”。 


格式 化 输出 





格式 化 调试 输出 ， 可 以 更 容易 发 现 错误 。 我 们 在 6.9 节 中 己 经 看 到 
过 一 个 例子 。pprint 模块 提供 了 一 个 pprint 函数 ， 可 以 将 内 置 类 型 的 
值 以 更 加 入 性 化 的 可 读 的 格式 打印 出 来 。 (pprint 代表 “pretty 


print”. ) 


为 外 ， 再 提醒 一 次 ， 花 费时 间 构 建 脚手架 代码 ， 可 以 减少 未 来 进行 
调试 的 时 间 。 


11.9 术语 表 





映射 mapping〉: 一 个 集合 中 的 每 个 元 素 与 男 一 个 集合 中 的 元 素 
所 产生 的 关联 。 


字典 (dictionary) : 从 键 到 对 应 的 值 的 映射 。 
键 值 对 (key-value pair) : 键 到 值 的 映射 的 展示 。 


项 Citem): 在 字典 中 ， 键 值 对 的 另 一 个 名 称 。 





BE (key): 字典 中 出 现在 键 值 对 的 前 一 部 分 的 对 象 。 


值 (value) : 字典 中 出 现在 键 值 对 的 后 一 部 分 的 对 象 。 这 比 我 们 


之 前 提 到 的 “ 值 ” 更 加 具体 。 
实现 Cimplementation) : 进行 计算 的 一 个 具体 方式 。 
散 列 表 (hashtable〉: Python 字典 的 实现 用 的 算法 。 


散 列 函数 (hash function) : 散 列 表 中 用 来 计算 一 个 键 的 位 置 的 函 
数 。 


可 散 列 Chashable) : 拥有 散 列 函数 的 类 型 。 不 可 变 类 型 ， 诸 如 整 
数 、 浮 点 数 和 字符 串 都 是 可 散 列 的 ， 可 变 类 型 ， 诸 如 列表 和 字典 ， 都 是 
不 可 散 列 的 。 


查找 Cookup) : 字典 的 一 个 操作 ， 接 收 一 个 键 ， 并 找到 它 对 应 的 
值 。 


反问 查找 (reverse lookup) : 字典 的 一 个 操作 ， 通 过 一 个 值 来 找到 
它 对 应 的 一 个 或 多 个 键 。 


raise 语句 (raise statement) : 一 个 (故意 ) 抛 出 异常 的 语句 。 


单 件 (singleton) : 只 包含 一 个 元 素 的 列表 (或 其 他 序列 )。 








调用 图 (call graph) : 一 个 用 来 展示 程序 运行 中 创建 的 每 一 帧 的 
关系 的 岁 。 使 用 箭头 连接 每 个 调用 者 和 被 调用 者 。 


fis (memo) : 将 计算 的 结果 存储 起 来 ， 以 避免 将 来 进行 不 必要 
的 计算 。 


全 局 变量 (global variable) : 在 函数 之 外 定义 的 变量 。 全 局 变量 
可 以 在 任何 函数 中 访问 。 


全 局 语句 (global statement) : 声明 变量 名 为 全 局 的 语句 。 





标志 Cag): 用 于 标志 一 个 条 件 是 否 为 真 的 布尔 变量 。 

声明 (declaration) : 类 似 于 global 这 样 的 用 于 通知 解释 器 关于 
一 个 变量 的 信息 的 语句 。 
11.10 练习 

练习 11-1 


编写 一 个 函数 ， 读 入 words .txt 中 的 单词 ， 并 将 其 作为 键 保 存 到 一 
个 字典 中 。 字 典 的 值 是 什么 并 不 重要 。 然 后 你 就 可 以 使 用 in 操作 符 快 
速 检查 一 个 字符 串 是 人 否 在 这 个 字典 中 。 


如 果 你 做 过 了 练习 10-10， 可 以 将 这 个 实现 与 列表 的 in 操作 符 以 及 
二 分 查找 进行 速度 的 对 比 。 


练习 11-2 


阅读 字典 方法 setdefault 的 文档 ， 并 使 用 它 来 写 一 个 更 简洁 的 


invert_dict 。 


解答 : http://thinkpython2.com/code/invert_dict.py。 


练习 11-3 


将 练习 6-2 中 的 Ackermann 函 数 改 为 备 态 化 的 版 本 ， 并 查看 备 态 化 之 
后 是 耕 能 让 它 运 行 更 大 的 参数 。 提 示 : 不 能 。 


解答 : http://thinkpython2.com/code/ackermann_memo.py。 
练习 11-4 


如 果 你 做 过 练习 10-7， 则 已 经 有 一 个 接受 了 列表 作为 形 参 的 函 
数 has_duplicates ， 当 列表 中 有 任意 元 素 出 现 多 于 1 次 时 返回 True 。 





使 用 字典 编写 一 个 更 快 、 更 人 简单 的 has_duplicates 。 
解答 : http://thinkpython2.com/code/has_duplicates.py。 
练习 11-5 


两 个 单词 ， 如 果 可 以 使 用 轮转 操作 将 一 个 转换 为 男 一 个 ， 则 称 
为 “轮转 对 ”( 参 见 练习 8-5 中 的 rotate_word 函数 ) 。 


编写 一 个 程序 ， 读 入 一 个 单词 表 ， 并 找到 所 有 的 轮转 对 。 
解答 : http://thinkpython2.com/code/rotate_pairs.py。 
练习 11-6 


下 面 是 《车 迷 天 下 》 节 目 中 的 另 一 个 谜 题 


Chttp://www.cartalk.com/content/ puzzlers) : 


这 个 谜 题 是 一 个 叫 Dan OLeary 的 伙计 寄 过 来 的 。 他 曾经 过 到 一 个 
单 首 节 、5 字 母 的 第 用 单词 ， 有 如 下 所 述 的 特殊 属性 。 当 你 删除 第 一 个 





字母 时 ， 剩 下 的 字母 组 成 原单 词 的 一 个 同音 词 ， 即 发 音 完全 相同 的 词 。 
将 第 一 个 字母 放 回去 ， 并 删除 第 二 个 字母 ， 结 果 也 是 原单 词 另 一 个 同音 
词 。 问 题 是 ， 这 个 单词 是 什么 ? 


接 下 来 我 给 你 一 个 示例 ， 但 它 并 不 能 完全 符合 条 件 。 我 们 看 这 个 5 
字母 单词 “wrack ”，W-R-A-C-K， 也 就 是 “wrack with pain”(“ 带 来 伤害 
”) 里 的 那个 词 。 如 采 我 删 掉 第 一 个 字母 ， 会 剩 下 一 个 4 字母 的 单词 ， 
“R-A-C-K”. Ei, “Holy cow, did you see the rack on that buck! It 
must have a nine-pointer!” (CRE! (KA BI) AS VU HE BE A RE A SS! 一 定 有 
oMi ”) 中 的 那个 词 。 它 是 一 个 完美 的 同音 词 。 但 如 果 你 把 “w”* 放 
回去 ， 并 删 掉 “YY”， 会 得 到 单词 “wack”， 也 是 一 个 真实 单词 ， 但 它 读音 
和 其 他 两 个 不 一 样 。 


但 就 Dan 和 我 所 知 ， 至 少 有 一 个 单词 能 够 通过 删除 前 两 个 字母 得 到 


两 个 同音 词 。 问 题 是 ， 这 个 单词 是 什么 ? 





你 可 以 使 用 练习 11-1 中 的 字典 来 检测 一 个 字符 串 是 否 出 现在 单词 表 
中 。 








要 检查 两 个 单词 是 不 是 同音 词 ， 可 以 使 用 CMU 发 音 词典 。 你 可 以 
从 http:/www.speech.cs.cmu.edu/ cgi-bin/cmudict 或 者 
http://thinkpython2.com/ code/c06d 下 载 它 ， 也 可 以 下 载 
http://thinkpython2.com/code/pronounce.py， 其 中 提供 了 一 个 叫 
作 read_dictionary 的 函数 来 读 入 发 音 词典 并 返回 一 个 Python 字 典 ， 
将 每 个 单词 映射 到 表示 其 主要 读音 的 字符 串 上 。 





编写 一 个 程序 ， 列 出 所 有 可 以 解答 这 个 谜 题 的 单词 。 


解答 : http://thinkpython2.com/code/homophone.py。 


第 12 章 ”元 组 


本 章 介 绍 尺 外 一 种 内 置 类 型 一 一 元 组 ， 并 展示 列表 、 字 典 和 元 组 三 
者 如 何 一 起 工作 。 我 还 会 介绍 一 种 很 有 用 的 可 变 长 参数 列表 功能 : 收集 
操作 符 和 分 散 操作 符 。 


请 注意 ;元 组 Cuple) 这 个 词 的 读音 并 没有 统一 标准 。 有 些 人 会 读 


成 <*tuh-ple”， 与 “Supple" 同 音 ， 但 在 程序 设计 界 ， 大 多 数 人 都 谈 作 *too- 
ple”， 与 “quadruple” 同 首 。 








12.1 元 组 是 不 可 变 的 


元 组 是 值 的 一 个 序列 。 其 中 的 值 可 以 是 任何 类 型 ， 并 且 按 照 整 数 下 
标 索 引 ， 所 以 从 这 方面 看 ， 元 组 和 列表 很 像 。 元 组 和 列表 之 间 的 重要 区 
别 是 ， 元 组 是 不 可 变 的 。 














语法 上 ， 元 组 就 是 用 逗号 分 隔 的 一 列 值 : 





Pn O 


若 要 新 建 只 包含 一 个 元 素 的 元 组 ， 需 要 在 后 面 添加 一 个 逗号 : 


>>> t1 = ‘a’, 
>>> type(t1) 
<class ‘tuple'> 





而 用 括号 括 起 来 的 单独 的 值 并 不 是 元 组 : 


>>> t2 = ('a') 
>>> type(t2) 
<class ‘str'> 





新 建 元 组 的 另 一 种 形式 是 使 用 内 置 函 数 tuple 。 不 融 参 数 时 ， 它 会 
新 建 一 个 空 元 组 : 
>>> t = tuple() 


>>> t 


() 





如 果 参 数 是 一 个 序列 《字符 串 、 列 表 或 者 元 组 ) ， 结 果 就 是 一 个 包 
含 序列 的 元 系 的 元 组 : 


>>> t = tuple('lupins') 
>>> t 








因为 tuple 是 内 置 函 数 的 名 称 ， 所 以 应 当 避 免 用 它 作 为 变量 名 称 。 





大 多 数列 表 操 作 也 可 以 用 于 元 组 。 方 括号 操作 符 可 以 用 下 标 取得 元 





而 切片 操作 符 选 择 一 个 范围 内 的 元 素 : 


>>> t[1:3] 
(Breten 





但 如 果 答 试 修改 元 组 中 的 一 个 元 素 ， 会 得 到 错误 : 


>>> 七 6] = ‘A’ 
TypeError: object doesn't support item assignment 











由 于 元 组 是 不 可 变 的 ， 所 以 不 能 修改 它 的 元 素 。 但 是 可 以 将 一 个 元 


AB RATT: 


>>> t = ('A',) + t[1:] 
>>> t 
(‘A', 1 1 





这 条 语句 生成 新 元 组 ， 然 后 使 t 引用 它 。 


关系 运算 符 适 用 于 元 组 和 其 他 厅 列 。Python 从 比较 每 个 序列 的 第 一 
个 元 素 开始 。 如 果 它 们 相等 ， 它 就 继续 比较 下 一 个 元 素 ， 依 次 类 推 ， 直 
到 它 找 到 不 同 元 素 为 止 。 子 序列 元 素 不 在 考虑 之 列 〈 尽 管 它们 实际 上 很 
A) « 


>>> (0, 1, 2) < (0, 3, 4) 

True 

>>> (©, 1, 2000000) < (0, 3, 4) 
True 





12.2 元 组 赋值 


交换 两 个 变量 的 值 常常 很 有 用 。 使 用 传统 的 赋值 方式 ， 需 要 使 用 一 
个 临时 变量 。 例 如 ， 要 交换 a 和 b : 





>>> temp =a 
>>> a=b 
>>> b = temp 


pO 


OP RTT RAT, MC ZEYH: 


>>> a, b=b, a 





左边 是 一 个 变量 的 元 组 ， 右 边 是 表达 式 的 元 组 。 每 个 值 会 被 赋值 给 
相应 的 变量 。 右 边 所 有 的 表达 式 ， 都 会 在 任何 赋值 操作 进行 之 前 完成 求 
值 。 

左边 变量 的 个 数 和 右边 值 的 个 数 必 须 相同 : 


>>> a, b=1, 2, 3 
ValueError: too many values to unpack 





更 通用 地 ， 右 边 可 以 是 任意 类 型 的 序列 《字符 串 、 列 表 或 元 组 ) 。 
例如 ， 想 要 将 电子 邮件 地 址 拆 分 成 用 户 名 和 域名 ， 可 以 这 么 写 : 





>>> addr = ‘'monty@python.org' 
>>> uname, domain = addr.split('@') 








split 返回 两 个 元 素 的 列表 ; 第 一 个 元 素 被 赋值 到 uname ， 第 二 个 
到 domain 上 。 


>>> uname 
"monty ' 

>>> domain 
"python.org' 





123 fe Ak MBA oA 


严格 地 说 ， 函 数 只 能 返回 一 个 值 ， 但 如 果 返 回 值 是 元 组 的 话 ， 效 果 
和 返回 多 个 值 差不多 。 例 如 ， 如 末 将 两 个 整数 相 除 ， 得 到 商 和 余数 ， 那 
么 先 计算 x/y 再 计算 x%y 并 不 高 效 。 更 好 的 方法 是 同时 计算 它们 。 








内 置 函数 divmod 接收 两 个 参数 ， 并 返回 两 个 值 的 元 组 ， 即 商 和 余 
数 。 可 以 将 结果 存 为 一 个 元 组 : 


>>> t = divmod(7, 3) 
>>> t 
(2, 1) 





或 者 可 以 使 用 元 组 赋值 来 分 别 存 储 结果 中 的 元 素 : 


>>> quot, rem = divmod(7, 3) 
>>> quot 

2 

>>> rem 

1 





下 面 是 返回 一 个 元 组 的 函数 的 示例 : 


def min max(t): 
return min(t), max(t) 





max 和 min 都 是 内 置 函数 ， 分 别 返 回 一 个 序列 的 最 大 值 和 最 小 
值 。min_max 计算 这 两 个 值 并 将 它们 作为 一 个 元 组 返回 。 





12.4 可 变 长 参数 元 组 


函数 可 以 接收 不 定 个 数 的 参数 。 以 * 开头 的 参数 名 会 收集 
(gather) 所 有 的 参数 到 一 个 元 组 上 。 例 如 ，printall 接收 任意 个 数 的 
参数 并 打印 它们 : 


def printall(*args): 
print (args) 





收集 参数 可 以 使 用 任何 你 想 要 的 名 称 ， 但 按 惯例 通常 使 用 args © 
下 面 是 函数 如 何 工作 的 一 个 例子 : 


>>> printall(1, 2.0, '3') 
(1, 2.0, '3') 





收集 的 反面 是 分 散 (scatter) 。 如 果 有 一 个 序列 的 值 而 想 将 它们 作 
为 可 变 长 参数 传 入 到 函数 中 ， 可 以 使 用 * 操作 符 。 例 如 ，divmod 正好 
接收 两 个 参数 ， 但 它 不 接收 元 组 : 


>>> t = (7, 3) 
>>> divmod(t) 
TypeError: divmod expected 2 arguments, got 1 





(EON ACK CAA PL, BAT DAA T: 


>>> divmod(*t) 
(2, 1) 





很 多 内 置 函 数 使 用 可 变 长 参数 元 组 。 例 如 ，max 和 min 都 可 以 接收 
任意 个 数 的 参数 : 


>>> max(1, 2, 3) 
3 


但 是 sum 并 不 这 样 。 





>>> sum(1, 2, 3) 
TypeError: sum expected at most 2 arguments, got 3 


| | 
作为 练习 ， 编 写 一 个 函数 sumall ， 接 收 任意 个 数 的 参数 并 返回 它 

们 的 和 。 

12.5 ”列表 和 元 组 


zip 是 一 个 内 置 函 数 ， 接 收 两 个 或 多 个 序列 ， 并 返回 一 个 元 组 列 
表 。 每 个 元 组 包含 来 自 每 个 序列 中 的 一 个 元 素 。 这 个 函数 的 名 字 取 目 拉 
链 (zipper) ， 它 可 以 将 两 行 链 牙 交 从 连接 起 来 。 





下 面 的 例子 将 字符 串 和 一 个 列表 “ 拉 ” 到 一 起 ; 


>>> s = ‘abc' 
>>> t = [0, 1, 2] 


>>> zip(s, t) 
<zip object at @x7f7d@a9e7c48> 








结果 是 一 个 zip 对 象 ， 它 知道 如 何 遍 历 每 个 元 素 对 。 使 用 zip 最 
常用 的 方式 是 在 for 循环 中 : 





>>> for pair in zip(s, t): 
print(pair) 





Zip 对 象 是 一 种 运 代 器 ， 即 用 来 述 代 访问 一 个 序列 的 对 象 。 达 代 
句 与 列表 有 些 方面 类 似 ， 但 与 列表 不 同 的 是 ， 迭 代 强 不 能 使 用 下 标 来 选 
择 对 象 。 





如 果 需 要 使 用 列表 的 操作 符 和 方法 ， 可 以 利用 zip 对 象 制作 一 个 列 
表 : 


>>> list(zip(s, t)) 
[('a', ©), ('b', 1), ('c', 2)] 





结果 是 一 个 由 元 组 组 成 的 列表 。 在 本 例 中 ， 每 个 元 组 包含 字符 串 中 
的 一 个 字符 ， 以 及 列表 中 对 应 的 一 个 元 素 。 


如 果 序 列 之 间 的 长 度 不 同 ， 则 结果 的 长 度 是 所 有 序列 中 最 短 的 那 


ae 


>>> list(zip('Anne', 'Elk')) 
[('A', 'E'), On '1'), ('n', 'k')] 





可 以 在 for 循环 中 使 用 元 组 赋值 来 访问 元 组 的 列表 : 


t = [('a', Q), ('b', 1), ('c', 2)] 
for letter, number in t: 
print (number, letter) 





每 次 循环 中 ，Python 选 择 列 表 中 的 下 一 个 元 组 ， 并 将 其 元 素 赋 值 给 
letter 和 number 变量 。 这 个 循环 的 输出 如 下 : 


NF ® 
OOo YY 


如 果 组 合 使 用 zip . for 循环 以 及 元 组 赋值 ， 可 以 得 到 一 种 有 用 的 
模式 ， 用 于 同时 遍历 两 个 或 更 多 序列 。 例 如 ，has_match 函数 接收 两 个 
序列 ，t1 和 t2 ， 并 当 存 在 一 个 下 标 i 保证 t1[i] == t2[i] 时 返回 


TPue : 


def has_match(t1, t2): 
for x, y in zip (ti; t2): 
if x == y: 
return True 


return False 





WR ESEI PRR RETIN Ps, H MEH A EK 


数 enumerate : 


for index, element in enumerate('abc'): 
print(index, element) 





ABORA REAR G ARRANA, HEIR 


个 例子 中 ， 每 个 对 都 包含 一 个 下 标 《〈 从 0 开始 ) 和 一 个 来 自给 定 序列 的 
元 素 ， 输 出 结果 还 是 : 


NF ® 
AO oO Yo 


12.6 字典 和 元 组 


字典 有 一 个 items 方法 可 以 返回 一 个 元 组 的 序列 ， 其 中 每 个 元 组 是 
一 个 键 值 对 : 


>>> d 
>>> t 
>>> t 
dict_items([('c', 2), ('a', ©), ('b', 1)]) 


{'a':0, 'b': 
d.items() 





结果 是 一 个 dict_item WR, Ee NERA, a] MUARI le 
个 键 值 对 。 可 以 使 用 for 循环 来 访问 : 





>>> for key, value in d.items() 
print(key, value) 


own 
BRON. - 





和 预料 中 一 样 ， 字 典 中 的 项 是 没有 特定 顺序 的 。 


从 反方 同 出 发 ， 可 以 使 用 一 个 元 组 列表 来 初始 化 一 个 新 的 字典 : 


[('a', ©), ('c', 2), ('b', 1)] 
dict(t) 


>>> d = dict(zip('abc', range(3))) 


{'a': 6 





字典 方法 update 也 接收 一 个 元 组 列表 ， 并 将 它们 作为 键 值 对 添加 
到 一 个 已 有 的 字典 中 。 


使 用 元 组 作为 字典 的 键 很 常见 (主要 是 因为 不 能 使 用 列表 )〉 。 例 
如 ， 一 个 电话 号 码 矫 可 能 需要 将 姓名 对 映射 到 电话 号 码 。 假 设 定义 了 
last, first 和 number ， 可 以 这 么 写 








directory[last,first] = number 





在 方 括号 中 的 表达 式 是 一 个 元 组 。 我 们 也 可 以 使 用 元 组 赋值 来 遍历 
这 个 字典 : 


for last, first in directory: 
print(first, last, directory[last, first]) 





PE a directory 的 所 有 键 ， 它 们 都 是 元 组 。 它 将 每 一 
个 元 组 的 元 素 赋值 给 1ast 和 first ， 接 着 打印 出 名 字 以 及 对 应 的 电话 
号 码 。 








在 状态 图 中 有 两 种 方法 可 以 表达 元 组 。 更 详细 的 版 本 和 列表 一 样 ， 
示 索 引 和 元 系 。 例 如 ， 元 组 ("Cleese'， ‘John') 可 以 如 图 12-1 所 


T 
不 。 





tuple 


0 —> ’Cleese’ 


1 一 > John’ 








图 12-1 状态 图 


但 是 在 更 大 的 图 中 你 可 能 希望 省 略 掉 细 节 。 例 如 ， 整 个 电话 短 的 图 
如 图 12-2 所 示 。 


dict 
08700 100 222’ 
08700 100 222’ 


(’Cleese’, John 
Chapman’, ’Graham 


08700 100 222’ 
08700 100 222’ 
08700 100 222’ 


(’Gilliam’, "Terry 
(‘Jones’, Terry 
(’Palin’, Michael 


= 
—_— 

(‘Idle’, Eric’) 一 = ’08700 100 222” 
—_— 
—_ 
_— 





图 12-2 ”状态 图 


这 里 元 组 使 用 Python 的 语法 作为 图 形 化 的 简写 展示 。 这 张 图 里 的 电 
话 写 码 是 BBC 的 投诉 热线 ， 所 以 请 不 要 真 去 拨打 它 。 


12.7 序列 的 序列 





我 一 直 在 聚焦 于 元 组 的 列表 ， 但 本 章 中 几乎 所 有 的 示例 都 可 以 对 列 
表 的 列表 、 元 组 的 元 组 以 及 列表 的 元 组 使 用 。 为 了 避免 枚 举 所 有 的 可 能 
组 合 ， 有 时 候 直 接 说 序列 的 序列 更 简单 。 


在 很 多 环境 中 ， 不 同类 型 的 序列 《字符 串 、 列 表 和 元 组 ) 都 可 以 互 
换 使 用 。 应 当 如 何 选择 使 用 哪个 呢 ? 


从 最 明显 的 一 个 开始 ， 字 符 串 比 其 他 序列 有 更 多 限制 ， 因 为 它 的 元 
素 必须 是 字符 。 它 们 也 是 不 可 变 的 。 如 果 你 需要 修改 一 个 字符 串 中 的 字 
符 (而 不 是 新 建 一 个 字符 串 )， 可 能 需要 使 用 字符 的 列表 。 





列表 比 元 组 更 加 通用 ， 主 要 因为 它 是 可 变 的 。 但 也 有 一 些 情况 下 你 
可 能 会 优先 选择 元 组 。 





1. 在 有 些 环境 中 ， 如 返回 语句 中 ， 创 建 元 组 比 创建 列表 从 语法 上 


2. 如 果 雷 要 用 序列 作为 字典 的 键 ， 则 必须 使 用 不 可 变 类 型 ， 如 元 
组 或 字符 串 。 


3. 如 果 你 要 向 函数 传 入 一 个 序列 作为 参数 ， 使 用 元 组 可 能 会 减少 
潜在 的 由 假名 导致 的 不 可 预知 行为 。 





因为 元 组 是 不 可 变 的 ， 它 们 不 提供 类 似 sort 和 reverse 之 类 的 方 
法 ， 这 些 方 法 修改 现 有 的 序列 。 但 Python 也 提供 了 内 置 函 数 sorted , 
可 以 接收 任何 序列 作为 参数 ， 并 按 排 好 的 顺序 返回 带 有 同样 元 素 的 新 列 
表 。Python 还 提供 了 reverse ， 可 以 接收 序列 作为 参数 ， 并 返回 一 个 以 
相反 顺序 遍历 列表 的 迭代 器 。 


12.8 ”调试 





列表 、 字 典 和 元 组 都 被 统一 看 作 是 一 种 数据 结构 。 本 章 中 我 们 开 
始 看 到 复合 数据 结构 ， 像 元 组 的 列表 ， 或 者 用 元 组 做 键 、 用 列表 做 值 的 
字典 等 。 复 合 数据 结构 很 有 用 ， 但 它 容 易 导 致 我 称 为 的 结构 错误 ， 也 
就 是 说 ， 数 据 结构 因为 错 的 类 型 、 大 小 或 结构 导致 的 错误 。 例 如 ， 如 宁 
你 期 望 得 到 一 个 包含 单个 整数 的 列表 ， 而 我 给 你 一 个 单个 整数 《而 不 是 
在 列表 中 ) ， 就 会 出 错 。 





为 了 帮助 调试 这 种 问题 ， 我 写 了 一 个 模块 structshape ， 提 供 一 
个 也 叫 作 structshape 的 函数 ， 接 收 任何 数据 类 型 作为 参数 ， 并 返回 
一 个 描述 它 的 形状 的 字符 如。 你 可 以 从 
http://thinkpython2.com/code/structshape.py F #%'E o 


下 面 是 一 个 简单 列表 的 结 


>>> from structshape import structshape 
>>> t = [1,2,3] 
>>> structshape(t) 


‘list of 3 int' 





更 好 看 的 程序 可 能 会 输出 “list of 3 ints”， 但 不 需要 处 理 复 数 更 加 容 
易 。 下 面 是 列表 的 列表 : 
>>> t2 = [[1,2], [3,4], [5,61] 


>>> structshape(t2) 
‘list of 3 list of 2 int' 











如 果 列 表 的 元 素 不 是 同一 种 类 型 ，structshape 会 根据 它们 的 类 
型 按 顺序 分 组 : 
>>> t3 = [1, 2, 3, 4.0, '5', '6', [7], [8], 9] 


>>> structshape(t3) 
‘list of (3 int, float, 2 str, 2 list of int, int)' 





下 面 是 元 组 的 列表 : 


>>> s = ‘abc' 

>>> lt = list(zip(t, s)) 

>>> structshape(l1t) 

‘list of 3 tuple of (int, str)' 





下 面 是 一 个 字典 ， 有 3 个 从 整数 映射 到 字符 串 的 项 : 


>>> d = dict(lt) 
>>> structshape(d) 
‘dict of 3 int->str' 





如 果 你 发 现 要 记 住 数据 结构 有 困难 ，structshape 可 以 帮忙 。 


12.9 Rise 





元 组 (tuple) : 一 个 不 可 变 的 元 素 序 列 。 


元 组 赋值 (tuple assignment) : 一 个 赋值 语句 ， 右 侧 是 一 个 序列 ， 
左 侧 是 一 个 变量 的 元 组 。 右边 的 序列 会 被 求 值 ， 它 的 元 素 依次 赋值 给 左 
侧 元 组 中 的 变量 。 


收集 Cgather) : 组 装 可 变 长 参数 元 组 的 操作 。 


分 散 (scatter) : 把 一 个 序列 当 作 参 数列 表 的 操作 。 


zip 对 象 (zip object) : 调用 内 置 函 数 zip 的 结果 ， 它 是 一 个 迭代 
访问 由 元 组 组 成 的 序列 的 对 象 。 


AKAs iterator) : 可 以 壳 历 序列 的 对 象 ， 但 它 不 提供 列表 的 操作 
和 方法 。 


数据 结构 (data structure) : 相关 的 值 的 集合 ， 通 党 组 织 成 列表 、 
字典 、 元 组 等 。 


结构 错误 (shape error) : 某 个 值 由 于 其 结构 不 对 导致 的 错误 ， 即 
它 的 类 型 或 尺寸 不 对 。 
12.10 ”练习 

练习 12-1 


编写 一 个 函数 most_frequent ， 接 收 一 个 字符 串 并 按照 频率 的 降 
序 打 印字 母 。 从 不 同 语言 中 得 找 文本 样 例 并 碍 看 不 同 语言 中 的 单词 频率 
如 何 变 化 。 将 你 的 结果 和 http://en.wikipedia.org/wiki/Letter_frequencies 上 
的 列表 进行 对 比 。 


解答 : http://thinkpython2.com/code/most_frequent.py。 
练习 12-2 
更 多 回 文 ! 


1. 编写 一 个 程序 从 文件 中 读 入 一 个 单词 列表 参见 9.1 节 〉 并 打印 


出 所 有 是 回 文 的 单词 集合 。 


下 面 是 输出 的 样子 的 示例 : 


['deltas', 'desalt', 'lasted', 'salted', 'slated', 'staled'] 
['retainers', 'ternaries'] 

['generating', 'greatening'] 

['resmelts', 'smelters', 'termless'] 





提示 : 你 可 能 需要 构建 一 个 字典 将 字母 的 集合 映射 到 可 以 用 这 些 字 
母 构成 的 单词 的 列表 上 。 问 题 是 ， 如 何 表达 字母 集合 ， 才 能 让 它 可 以 用 
作 字典 的 键 ? 





2. 修改 前 一 个 问题 的 程序 ， 让 它 先 打印 最 大 的 回 文 列表 ， 再 打印 
第 二 大 的 回 文 列表 ， 依 次 类 推 。 





3. 在 Scrabble 拼 字 游 戏 中 ， 一 个 “bingo” 代 表 你 自己 架子 上 全 部 7 个 
字母 和 盘 上 的 一 个 字母 组 合成 一 个 8 字母 单词 。 哪 一 个 8 字母 单词 可 以 生 
成 最 多 的 bingo? 提示 : 一 共有 7 个 。 





解答 : http://thinkpython2.com/code/anagram_sets.py。 
练习 12-3 


两 个 单词 ， 如 果 可 以 通过 交换 两 个 字母 将 一 个 单词 转换 为 另 一 个 ， 
束 称 为 “置换 对 ”;， 例 如 ，“converse” 和 “conserve”。 编 写 一 个 程序 查找 字 
典 中 所 有 的 置换 对 。 提 示 : 不 要 测试 所 有 的 单词 对 ， 也 不 要 测试 所 有 可 
能 的 交换 。 


解答 : http://thinkpython2.com/code/metathesis.py 
鸣谢 这 个 练习 启发 自 http://puzzlers.org 的 示例 。 


练习 12-4 








下 面 是 《车 迷 天 下 》 节 目 中 的 一 个 谜 题 


Chttp://www.cartalk.com/content/puzzlers ) : 





一 个 英文 单词 ， 当 逐个 删除 它 的 字母 时 ， 仍 然 是 英文 单词 。 这 样 的 
单词 中 最 长 的 是 什么 ? 


首先 ， 字 母 可 以 从 两 头 或 者 中 间 删 除 ， 但 你 不 能 重 排 字母 。 每 次 你 
去 掉 一 个 字母 ， 则 得 到 另 一 个 英文 单词 。 如 果 一 直 这 么 做 ， 最 终 会 得 到 
一 个 字母 ， 它 本 身 也 是 一 个 英文 单词 可 以 从 字典 上 找到 的 。 我 想 知 
道 这 样 的 最 长 的 单词 是 什么 ， 它 有 多 少 字母 ? 








我 会 给 你 一 个 普通 的 例子 : Sprite。 你 从 sprite 开 始 ， 取 出 一 个 字 
母 ， 从 单词 内 部 取 ， 取 走 r， 这 样 我 们 融 剩 下 单词 spite， 接 着 我 们 取 走 
结尾 的 se， 剩 下 spit， 接 着 取 走 s， 我 们 剩 下 pit、it 和 I。 





编写 一 个 程序 来 找到 所 有 可 以 这 样 缩减 的 单词 ， 然 后 找到 最 长 的 一 


Ne 


这 个 练习 比 大 部 分 练习 都 更 有 挑战 ， 所 以 下 面 有 一 些 建议 。 


1. 你 可 能 需要 编写 一 个 程序 接收 一 个 单词 ， 并 计算 出 所 有 通过 从 
它 取 出 一 个 字母 得 到 的 单词 的 列表 。 它 们 是 这 个 单词 的 “了 ”单词 。 








2. 递归 地 ， 只 有 当 一 个 单词 的 子 单 词 中 有 一 个 可 缩减 时 ， 它 才 可 
缩减 。 作 为 一 个 基准 情形 ， 你 可 以 认为 空 字符 串 可 缩减 。 


3. eS words .txt ， 并 不 存在 单个 字母 的 单词 。 所 
以 你 可 能 需要 加 上 “1”、“a” 和 空 字符 串 。 








A. 为 了 提高 程序 的 效率 ， 你 可 能 需要 记 住 已 知 的 可 缩减 的 单词 。 


Te 


解答 : http://thinkpython2.com/code/reducible.py . 


第 13 章 ”案例 研究 : 选择 数据 结构 


到 这 里 你 应 该 已 经 学 会 了 Python 的 核心 数据 结构 ， 也 见 过 了 -一些 使 
用 它们 的 算法 。 如 果 你 想 要 更 多 地 了 解 算 法 ， 可 以 阅读 第 21 章 。 但 继续 
下 面 的 内 容 之 前 那 部 分 内 容 并 不 是 必需 要 读 懂 ， 你 可 以 随感 兴趣 时 时 去 
阅读 。 





本 章 配 合 练习 介绍 一 个 案例 分 析 ， 必 你 思考 如 何 选择 数据 结构 并 如 
何 实际 使 用 它们 。 


13.1 单词 频率 分 析 
和 前 面 的 章节 一 样 ， 应 当 至 少 尝试 一 下 解决 问题 ， 再 看 我 的 解答 。 
练习 13-1 


编写 一 个 程序 ， 读 入 一 个 文件 ， 将 每 行内 容 拆 解 为 单词 ， 剥 去 单词 
周围 的 空白 字符 和 标点 ， 并 转换 为 小 写 。 


提示 : string 模块 提供 了 空白 字符 串 whitespace ， 包 括 空格 、 
制 表 符 、 换 行 符 等 ， 它 也 提供 了 punctuation ， 包 含 了 所 有 的 标点 字 
符 。 让 我 们 试 试 能 不 能 让 Python 胡言 乱 语 : 





>>> import string 
>>> string.punctuation 


"1 "#$%&' ()*+,-./253<=>?2@[\]%_ {]}e' 


a ëO 


另外 ， 也 可 以 考虑 字符 串 方 法 strip . replace 和 translate 。 
练习 13-2 


AE THE LE (Project Gutenberg, http://www.gutenberg.org ) 并 
下 载 你 最 喜欢 的 无 版 权 书籍 的 纯 文 本 文档 。 





修改 前 一 个 练习 中 的 程序 ， 改 为 从 你 下 载 的 书籍 中 读 取 内 容 ， 跳 过 
文件 开头 的 信息 部 分 ， 并 和 前 面 一 样 将 文本 处 理 成 为 单词 。 





接着 修改 程序 ， 计 算 书 中 出 现 的 全 部 单词 的 总 数 ， 以 及 每 个 单词 使 
用 的 次 数 。 


打印 书 中 使 用 的 不 同 单词 的 个 数 。 比 较 不 同时 代 、 不 同 作者 的 不 同 
书籍 。 哪 一 个 作者 使 用 的 词汇 最 广泛 ? 


练习 13-3 
修改 前 一 个 练习 中 的 程序 ， 计 算 书 中 使 用 频率 最 高 的 20 个 单词 。 
练习 13-4 


修改 前 面 的 程序 ， 读 入 一 个 单词 表 (参见 9.1 市 ) 并 打印 出 书 中 所 
有 不 在 单词 表 之 中 的 单词 。 这 其 中 有 多 少 是 拼写 错误 ?有 多 少 是 应 该 出 
现在 单词 表 中 的 第 用 单词 ?” 有 多 少 是 真正 冷 僻 的 单词 ? 











13.2 ”随机 数 





给 定 相 同 的 输入 ， 大 部 分 计算 机 程序 每 次 运行 都 会 生成 相同 的 输 
出 ， 所 以 它们 被 认为 是 有 确定 性 的 。 确 定性 通常 是 件 好 事 ， 因 为 我 们 
希望 相同 的 计算 能 有 相同 的 结果 。 但 对 茶 些 特别 的 应 用 ， 我 们 和 希望 计算 
机 是 不 可 预测 的 。 游 戏 是 一 个 明显 的 例子 ， 但 还 有 更 多 类 似 的 例子 。 











让 程序 变 得 真正 地 不 确定 很 难 ， 但 也 有 办 法 让 它 至 少 看 起 来 是 不 确 
定 的 。 一 种 办 法 是 使 用 算法 来 生成 伪 随 机 数 。 伪 随机 数 并 不 是 真正 随 
机 的 ， 因 为 它们 是 通过 一 个 确定 性 的 算法 生成 的 ， 但 大 只 看 输出 的 数字 
的 话 ， 几 乎 不 可 能 看 出 来 和 随机 数 有 什么 区 别 。 





模块 random 提供 了 用 于 生成 伪 随 机 数 的 函数 〈 接 下 来 我 直接 简单 
地 将 它 称 为 “随机 数 ”)。 

Pk random 返回 一 个 从 0.0 到 1.0 之 间 的 随机 浮 点 数 〈 包 括 0.0， 但 
不 包括 1.0) 。 每 当 调 用 random 时 ， 会 得 到 一 个 很 长 的 随机 数 序列 中 的 
下 一 个 数 。 运 行 下 面 的 循环 ， 可 以 看 到 一 个 样本 : 


import random 


for i in range(10): 


x = random.random() 
print(x) 





函数 randint 接收 参数 low 和 high ， 并 返回 low 和 high 之 间 (两 
者 都 包含 ) 的 一 个 整数 。 


>>> random.randint(5, 10) 
5 


>>> random.randint(5, 10) 
9 





要 从 序列 中 随机 选择 一 个 元 素 ， 可 以 使 用 choice : 


>>> t = [1, 2, 3] 
>>> random.choice(t) 
2 

>>> random.choice(t) 
3 








random 模块 还 提供 了 可 以 从 各 种 连续 分 布 序列 中 生成 随机 数 的 函 
数 ， 包 括 高 斯 分 布 、 指 数 分 布 、Y 分 布 以 及 其 他 几 种 。 
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编写 一 个 函数 choose_from_hist ， 接 收 一 个 11.1 节 所 定义 的 直方 
图 作为 参数 ， 并 从 这 个 直方 图 中 ， 按 照 频 率 的 大 小 ， 成 比例 地 随机 返回 
一 个 值 。 例 如 ， 对 下 面 这 个 直方 图 : 





>>> t = ['a', 'a', 'b'] 
>>> hist = histogram(t) 
>>> hist 

{'a': 2, 'b': 1} 





你 的 函数 应 该 以 2/3 的 概率 返回 'a' ， 以 3 的 概率 返回 'b' 。 
13.3 单词 直方 图 


在 继续 阅读 之 前 你 应 当 答 试 前 面 的 练习 。 你 可 以 从 
http://thinkpython2.com/code/ analyze_book1.py 下 载 我 的 解答 。 你 还 需要 
http://thinkpython2.com/code/emma.txt. 


下 面 是 一 个 读 取 文件 并 从 文件 中 的 单词 构造 直方 图 的 例子 : 
import string 


def process file(filename): 
hist = dict() 
fp = open(filename) 
for line in fp: 
process line(line, hist) 
return hist 


def process_line(line, hist): 
line = line.replace('-', ' ' 


for word in line.split(): 
word = 
word = 


word.strip(string.punctuation + string.whitespace) 
word. lower () 


hist[word] = hist.get(word, ©) + 1 


hist = process file('emma.txt' ) 





这 个 程序 读 入 emma .txt ， 其 内 容 是 简 : 奥 斯 本 的 《 爱 玛 》 的 文本 。 





process_file 循环 遍历 文件 中 的 每 一 行 ， 每 次 将 一 行 传递 给 


process line 函数 。 直 方 图 hist 用 作 累 加 器 。 


process line 使 用 字符 串 方法 replace 将 '-' 符号 替换 为 空格 ， 
再 使 用 split 将 各 行文 本 拆 分 成 一 个 字符 串 列表 。 它 过 历 单词 列表 ， 使 
用 strip 和 lower 去 除 掉 标 点 符号 并 转换 为 小 写 。【〔 我 们 说 “转换 ”， 只 
是 个 简称 ， 记 住 字 符 串 是 不 可 变 的 ， 所 以 strip 和 ]ower 这 样 的 方法 返 
回 的 是 新 字符 串 。) 


最 后 ，process_line 通过 创建 新 项 或 者 增加 旧 有 项 的 值 来 更 新 直 
方 图 。 








要 计算 文件 中 单词 的 总 数 ， 我 们 可 以 素 加 直方 图 中 的 频率 : 


def total_words(hist): 
return sum(hist.values()) 





不 同 单词 的 个 数 ， 就 是 字典 里 的 元 系数 量 : 


def different_words(hist): 
return len(hist) 





下 面 是 打印 结果 的 代码 : 





print('Total number of words:', total_words(hist) ) 
print('Number of different words:', different_words(hist) ) 


pT 


以 及 结果 : 


Total number of words: 161080 
Number of different words: 7214 





13.4 ”最 利用 的 单词 


要 寻找 最 常用 单词 ， 我 们 可 以 生成 一 个 元 组 的 列表 ， 其 中 每 个 元 组 
包括 一 个 单词 及 其 频率 ， 并 对 其 进行 排序 。 


下 面 的 函数 接收 一 个 直方 图 ， 并 返回 “单词 -频率 ”元 组 的 列表 : 


def most_common(hist): 
t= 
for key, value in hist.items(): 
t.append((value, key)) 


t.sort(reverse=True) 
return t 





在 每 个 元 组 中 ， 频 率先 出 现 ， 所 以 结果 列表 按 频 率 排序 。 下 面 的 循 
环 打印 出 最 常用 的 10 个 单词 : 





t = most_common(hist) 
print('The most common words are:') 
for freq, word in t[:10]: 


print(word, freg, sep='\t') 





这 里 我 使 用 关键 字 参 数 sep 通知 print 去 使 用 制 表 符 作为 分 隔 符 ， 
而 不 使 用 空格 。 于 是 第 二 列 可 以 对 其 排列 。 下 和 面 是 《 爱 玛 》 的 结 


The most common words are: 





这 上段 代码 可 以 用 sort 函数 的 key 参数 进行 简化 。 如 果 你 有 兴趣 
可 以 读 一 下 相关 的 文章 : http://wiki.python.org/moin/HowTo/Sorting。 


13.5 PEZ 


我 们 已 经 见 过 一 些 接收 可 选 形 参 的 内 置 函数 和 方法 。 用 户 也 可 以 编 
写 接收 可 选 形 参 的 自 定 义 函 数 。 例 如 ， 下 面 的 函数 打印 一 个 直方 图 中 最 
常见 的 单词 : 





def print most common(hist, num=10): 
t = most common(hist) 
print('The most common words are:') 


for freq, word in t[:num]: 
print(word, freq, sep='\t') 





第 一 个 形 参 是 必需 的 ， 第 二 个 是 可 选 的 。 形 参 num 的 默认 值 是 
10。 


如 果 只 提供 一 个 实 参 : 


print_most_common(hist) 





num 会 获得 默认 值 。 如 果 提 供 两 个 实 参 : 


print_most_common(hist, 20) 





num RREK. A, EKSER it, 默认 形 


如 果 一 个 函数 既 有 必需 形 参 ， 也 有 可 选 形 参 ， 则 所 有 的 必需 形 参 都 
an a. 


13.6 字典 减法 


寻找 在 书 中 出 现 却 不 在 words .txt 单词 表 中 的 单词 ， 这 个 问题 可 以 


看 作 是 集合 减法 ， 也 就 是 说 ， 我 们 想 要 找到 出 现在 一 个 集合 《〈 书 中 的 单 
词 ) 而 不 在 另 一 个 集合 《单词 表 中 的 单词 ) 的 所 有 单词 。 





subtract 函数 接收 两 个 字典 dl 和 d2 ， 并 返回 一 个 新 的 字典 ， 包 
含 所 有 出 现在 dl 中 且 不 出 现在 d2 中 的 键 值 。 由 于 我 们 并 不 真 的 关心 字 
典 的 值 ， 我 们 将 所 有 值 都 设 为 None。 


def subtract(d1, d2): 
res = dict() 
for key in d1: 
if key not in d2: 
res[key] = None 


return res 





要 找 出 书 中 出 现 而 不 在 words .txt 单词 表 中 的 词 ， 我 们 可 以 使 
用 process file 为 words .txt 建立 一 个 直方 图 ， 再 使 用 减法 : 
words = process file('words.txt' ) 
diff = subtract(hist, words) 
print("Words in the book that aren't in the word list:") 


for word in diff: 
print(word, end=' ') 





下 面 是 《 爱 玛 》 一 书 中 的 部 分 结 





Words in the book that aren't in the word list: 


rencontre jane's blanche woodhouses disingenuousness 
friend's venice apartment ... 


这 些 词 中 有 些 是 名 字 或 所 有 格 单词 。 其 他 的 ， 如 “rencontre”， 已 经 
不 再 常用 。 但 也 有 一 些 是 真 应 该 包含 在 单词 表 中 的 ! 
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Python 提 供 了 一 个 数据 结构 set ， 它 提供 了 很 多 常见 的 集合 操作 。 
你 可 以 读 19.5 市 中 关于 集合 操作 的 内 容 ， 或 者 阅读 http://docs.python. 
org/3/library/stdtypes.html#types-set 上 的 文档 ， 并 编写 一 个 程序 使 用 集合 
减法 来 寻找 出 现在 书 中 但 不 出 现在 单词 表 中 的 单词 。 解 答 : 
http://thinkpython2.com/code/ analyze_book2.py。 


13.7 随机 单词 


藻 要 从 直方 图 中 随机 选择 一 个 单词 ， 最 简单 的 算法 是 根据 计算 得 到 
的 频率 构建 一 个 列表 ， 其 中 每 个 单词 根据 词 频 有 多 个 拷贝 ， 并 从 中 随机 
选择 一 个 单词 : 


def random_word(h): 


for word, freq in h.items(): 
t.extend([word] * freq) 


return random. choice(t) 





表达 式 [word] * freq 创建 一 个 列表 ， 里 面 有 单词 word 的 freq 


个 副本 。extend 方法 和 append 类 似 ， 区 别 是 接收 的 参数 是 一 个 序列 。 


这 个 算法 可 以 使 用 ， 但 效率 并 不 高 ; 每 当选 择 一 个 随机 单词 时 ， 它 
会 重建 列表 ， 而 这 个 列表 和 原 书 差不多 长 。 一 个 明显 的 改进 方法 是 只 建 
并 列表 一 次 ， 再 使 用 多 次 选择 ， 但 这 么 做 列表 仍然 很 大 。 


更 好 的 蔡 代 方案 如 下 。 


1. 使 用 keys 来 获得 书 中 所 有 的 单词 的 列表 。 





2. 构建 一 个 列表 ， 包 含 单 词 频率 的 累积 和 【参见 练习 10-2) 。 这 
个 列表 中 的 最 后 一 项 是 书 中 单词 的 总 数 mn 。 








3. 在 1 到 n 之 间 随 机 选择 一 个 数 。 使 用 二 分 查找 (参见 练习 10-11) 
来 找到 随机 数 在 累积 和 列表 中 应 该 出 现 的 位 置 的 下 标 。 





4. 使 用 这 个 下 标 ， 在 单词 表 中 找到 相应 的 单词 。 
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编写 一 个 程序 ， 使 用 这 个 算法 来 从 书 中 选择 一 个 随机 的 单词 。 
解答 : http://thinkpython2.com/code/analyze_book3.py 。 
13.8 ”马尔 可 夫 分 析 


如 果 你 从 书 中 随机 地 获取 单词 ， 可 以 借 此 感受 一 下 书 中 的 词汇 ， 但 
可 能 无 法 通过 随机 获取 来 得 到 一 句 话 : 


this the small regard harriet which knightley's it most things 





一 个 随机 单词 的 序列 ， 很 难 组 成 有 意义 的 话 ， 因 为 相 邻 的 词 之 间 没 
有 任何 关联 。 例 如 ， 在 一 个 真实 的 句子 中 ， 冠 词 “the” 应 当 会 后 接 一 个 形 
容 词 或 名 词 ， 而 不 应 是 动词 或 副词 。 





测量 这 种 类 型 的 关联 的 方法 之 一 是 使 用 马尔 可 夫 分 析 ， 它 能 够 用 于 
描述 给 定 的 单词 序列 中 下 一 个 可 能 出 现 的 单词 的 概率 。 例 如 ， 歌 曲 
«Eric, the Half a Bee》 的 开头 是 : 


Half a bee, philosophically, 
Must, ipso facto, half not be. 
But half the bee has got to be 
Vis a vis, its entity. D’you see? 
But can a bee be said to be 

Or not to be an entire bee 
When half the bee is not a bee 


Due to some ancient injury? 





在 这 段 文 本 中 ， 短 语 “half the” 总 是 后 接着 单词 “bee”， 但 短语 “the 


bee” 则 可 能 后 接 “has” 或 “is”。 


马尔 可 夫 分 析 的 结果 是 一 个 从 每 个 前 级 (如 “half the” #l“the bee”) 
到 其 所 有 可 能 后 级 (如 “has” 和 “is”) 的 映射 。 


给 定 这 种 映 冉 后 ， 你 就 可 以 用 它 来 生成 随机 文本 。 从 任意 前 级 开 
台 ， 并 从 它 的 可 能 后 绥 中 随机 选择 一 个 。 接 着 ， 你 可 以 将 前 绥 的 结尾 和 
后 级 组 合 起 来 ， 作 为 下 一 个 前 级 ， 并 继续 重复 。 


例如 ， 如 果 你 以 前 级 “Half a* 开 始 ， 则 接 下 来 一 个 单词 必定 
是 “bee”， 因 为 这 个 前 级 在 文本 中 只 出 现 了 一 次 。 下 一 个 前 级 是 “a 
bee”， 所 以 下 一 个 后 级 可 能 是 “philosophically”be” 或 者 “due”。 





在 这 个 例子 中 前 级 的 长 度 总 是 2-， 但 其 实 你 可 以 使 用 任意 前 级 长 度 
来 进行 马尔 可 夫 分 析 。 
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马尔 可 夫 分 析 : 


1. 编写 一 个 程序 从 文件 中 读 入 文本 ， 并 进行 马尔 可 夫 分 析 。 结 果 
应 该 是 一 个 字典 ， 将 前 级 映射 到 可 能 后 级 的 集合 。 集 合 可 以 是 列表 、 元 
组 或 者 字典 ; 由 你 来 做 出 合适 的 选择 。 你 可 以 使 用 前 绥 长 度 2 来 测试 程 
序 ， 但 编写 程序 时 应 当 考 虑 可 以 方便 地 改 为 其 他 前 级 长 度 。 





2. 在 前 面 编写 的 程序 中 添加 一 个 函数 ， 基 于 马尔 可 夫 分 析 的 结果 
随机 生成 文本 。 下 面 是 一 个 从 《 爱 玛 》 中 使 用 前 级 长 度 2 生成 的 例子 : 


He was very clever, be it sweetness or be angry, ashamed or only 


amused, at Such a stroke. She had never thought of Hannah till you were 
never meant for me?” “I cannot make speeches, Emma:”he soon cut it all 


himself. 








对 这 个 例子 ， 我 留 下 了 每 个 单词 后 面 的 标点 。 络 果 几 乎 是 语法 正确 
的 ， 但 也 不 完全 对 。 语 义 上 ， 它 看 起 来 很 像 是 有 意义 的 ， 但 也 不 完全 


H 
KE o 





当 增 加 前 级 长 度 时 ， 结 果 会 怎么 样 ? 随机 生成 的 文本 会 不 会 看 来 更 


意义 ? 








3. 一 旦 你 的 程序 可 以 正常 运行 后 ， 可 以 考虑 尝试 一 下 混搭 : 如 果 
对 两 本 或 更 多 本 书 进行 组 合 ， 则 生成 的 随机 文本 会 以 一 种 有 趣 的 方式 泥 
合 各 书 中 的 词汇 和 短语 。 





致谢 : 本 案例 分 析 基 于 Kernighan 和 Pike 的 The Practice of 
Programming (Addison-Wesley, 1999) 一 书 中 的 一 个 示例 。 


你 应 当 在 继续 阅读 前 答 试 这 个 练习 ， 接 着 可 从 
http://thinkpython2.com/code/ markov.py 下 载 我 的 解答 。 你 也 需要 
http://thinkpython2.com/code/emma.txt. 


13.9 ”数据 结构 


使 用 马尔 可 夫 分 析 生 成 随机 文本 很 有 趣 ， 但 这 个 练习 还 有 一 个 要 
点 : 数据 结构 的 选择 。 在 前 面 的 练习 中 ， 你 需要 选择 : 


。 如 何 表 达 前 级 ; 


。 如 何 表 达 可 能 的 后 级 的 集合 ; 
。 如 何 表 达 每 个 前 级 到 可 能 后 级 的 集合 的 映射 。 


最 后 一 个 选择 很 简单 ， 要 从 键 映 射 到 对 应 的 值 ， 字 典 是 最 自然 的 选 


对 前 绥 来 说 ， 最 明显 的 选择 是 字符 串 、 字 符 串 列表 或 者 字符 串 元 
组 。 对 后 绥 来 说 ， 一 种 选择 是 列表 ， 另 一 种 是 直方 图 (字典) 





你 会 如 何 选择 ? 第 一 步 需 要 思考 每 种 数据 结构 需要 实现 的 操作 。 对 
前 绥 而 言 ， 我 们 需要 能 够 从 前 方 删 除 一 个 单词 ， 并 在 后 方 添加 一 个 单 
词 。 例 如 ， 如 果 当 前 的 前 级 是 “Half a”， 而 下 一 个 单词 是 “bee”， 则 需要 


能 够 构造 下 一 个 前 弘 ，“a bee”. 


你 的 第 一 个 选择 可 能 是 列表 ， 因 为 列表 添加 和 删除 元 又 部 很 方便 。 
但 我 们 也 需要 使 用 前 级 作为 字典 的 键 ， 所 以 列表 被 排除 控 。 对 元 组 而 
言 ， 昌 然 你 不 能 附加 或 删除 ， 但 可 以 使 用 加 法 操作 符 来 构建 一 个 新 的 元 
组 : 


def shift(prefix, word): 
return prefix[1:] + (word, ) 





shift 接收 一 个 单词 的 元 组 、prefix ， 以 及 一 个 字符 串 word ， 并 
构建 一 个 新 的 元 组 ， 包 含 prefix 中 除了 第 一 个 之 外 的 元 素 ， 并 把 word 
添加 在 最 后 。 


对 后 级 集合 而 言 ， 我 们 需要 进行 的 操作 包括 添加 一 个 新 的 后 级 (或 
者 增加 一 个 已 有 后 级 的 频率 ) ， 以 及 随机 选择 一 个 后 级 。 





添加 一 个 新 后 级 ， 使 用 列表 实现 或 者 直方 图 实现 效率 上 相同 。 从 一 
个 列表 中 随机 选择 元 素 很 简单 ， 从 直方 图 中 随机 选择 则 更 难 一 些 (参见 
练习 13-7) 。 


到 此 为 止 我 们 一 直 在 讨论 实现 的 简易 性 ， 但 选择 数据 结构 时 ， 还 有 
其 他 需要 考虑 的 因 系 。 一 个 是 运行 时 间 。 有 了 时候， 我 们 可 以 从 理论 上 预 
期 一 种 数据 结构 比 力 一 种 更 快 ， 例 如 ， 我 所 到 过 in REF, SNRA 
量 很 大 时 ， 在 人 字典 中 使 用 比 在 列表 中 快 。 








但 哪 种 实现 会 更 快 常常 无 法 事先 预知 。 一 个 办 法 是 两 种 都 实现 ， 青 
比较 哪个 更 快 。 这 种 方法 称 为 基准 比较 Cbenchmarking) 。 比 较 实际 的 
方案 是 先 选择 最 容易 实现 的 数据 结构 ， 然 后 看 它 是 否 对 预期 的 程序 而 言 
足够 快 。 如 果 已 经 足够 ， 则 不 需要 变动 ， 人 否则 ， 可 以 使 用 profile 模块 
之 类 的 工具 ， 发 现 程序 中 哪些 地 方 占 用 了 最 长 的 时 间 。 





男 一 个 考虑 因素 是 存储 空间 。 例 如 ， 使 用 直方 图 来 保存 后 级 集合 可 
能 占用 较 少 空间 ， 因 为 不 论 一 个 单词 在 文本 中 出 现 多 少 次 ， 你 只 需要 保 
存 一 次 。 有 的 情况 下 ， 节 省 空间 也 可 以 让 你 的 程序 运行 更 快 ， 而 在 极端 
的 情形 中 ， 如 果 导 致 内 存 淤 出 ， 则 程序 无 法 正常 运行 。 但 对 大 多 数 程 厅 
来 说 ， 存 储 空间 是 次 于 运行 速度 的 第 二 考虑 因素 。 


























最 后 一 点 : 在 这 个 讨论 中 ， 对 于 分 析 和 生成 两 个 过 程 ， 我 暗示 了 我 
们 应 当 使 用 相同 的 数据 结构 。 但 因为 这 是 两 个 分 开 的 阶段 ， 所 以 也 可 以 
在 分 析 阶 段 使 用 一 种 数据 结构 ， 再 转换 为 男 一 种 数据 结构 用 于 生成 阶 





段 。 如 采 新 的 数据 结构 在 生成 阶段 节省 的 时 间 大 于 转换 花费 的 时 间 ， 则 
总 的 来 说 是 有 利 的 。 





13.10 “调试 








当 在 调试 程序 时 ， 尤 其 是 对 付 一 个 困难 的 bug 时 ， 可 以 尝试 下 面 5 
Frio 


阅读 


审阅 你 的 代码 ， 对 目 己 读 出 来 ， 并 检查 它 是 否 和 你 想 说 的 一 致 。 





做 一 些小 修改 并 进行 试验 ， 或 者 运行 不 同 的 版 本 。 通 常 如 果 在 程序 
中 正确 的 地 方 加 上 正确 的 输出 ， 问 题 就 会 变 得 更 加 显而易见 。 但 有 时 候 
你 需要 构建 一 个 脚手架 。 





A? peer 


沉思 


化 些 时 间 思 考 ! 可 能 是 哪 种 类 型 的 错误 : 语法 的 、 运 行 时 的 还 是 语 
义 的 ?从 错误 消 妃 或 程序 输出 中 可 以 得 到 什么 信息 ? 哪 种 错误 可 能 导致 
你 看 到 的 问题 ? 在 问题 出 现 之 前 ， 你 的 最 后 一 次 修改 是 什么 ? 














ARLHS Yd ah 


如 果 你 加 其 他 人 解释 过 到 的 问题 ， 有 了 时候 能 在 说 完 问 题 之 前 束 找 到 
答案 。 通 单 你 甚至 不 需要 找 人 去 诉说 ， 而 只 需要 对 橡皮 了 鸭 诉 说 即 可 。 这 
就 是 著名 的 橡皮 鸭 调 试 (rubber duck debugging) 的 来 源 。 这 可 不 是 我 
编 出 来 的 ， 参 见 https:Wen wikipedia.org/wiki/ Rubber_duck_debugging. 
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程序 恢复 到 之 前 没有 错误 且 能 够 理解 的 程度 。 然 后 可 以 开始 重新 构建 。 











新 手 程序 员 有 时 会 卡 在 这 些 环节 中 的 茶 一 个 上 ， 却 二 了 还 可 以 尝试 
其 他 的 环节 。 每 个 环节 都 有 其 独自 的 失败 模式 。 


例如 ， 妆 问题 是 一 个 拼写 错误 上 时， 阅读 代码 可 以 帮忙 ， 但 奉 问 题 是 
概念 误解 导致， 束 没 有 效果 了。 如 果 你 不 理解 自己 的 程序 ， 那 么 即使 阅 
读 100 裔 ， 也 发 现 不 了 问题 ， 因 为 错误 是 在 你 大 脑 中 的 。 





运行 一 些 试验 代码 可 以 起 到 很 大 帮助 ， 尤 其 是 那些 短小 而 简单 的 测 
试 程序 。 但 如 果 你 没有 思考 或 阅读 代码 就 运行 试验 代码 ， 则 可 能 会 陷入 
我 称 之 为 “随机 走动 编程 ”的 模式 之 中 。 即 坚 无 目标 地 随机 改变 程序 ， 直 
到 程序 正确 运行 为 上 。 军 无 疑问 ， 随 机 走动 编程 可 能 要 花费 很 长 的 时 
间 。 








你 必需 花 一 定 的 时 间 去 思考 。 调 试 就 像 是 一 门 实验 科学 。 你 应 当 至 
少 有 一 个 关于 这 个 问题 的 假设 。 如 果 有 两 个 以 上 的 可 能 性 ， 可 以 试看 构 
思 一 个 测试 来 排除 其 中 一 个 。 


但 如 果 有 太 多 错误 ， 或 者 你 要 修正 的 代码 太 大 太 复 杂 ， 即 使 最 好 的 
调试 技巧 也 会 失败 。 有 时 候 最 好 的 选择 是 回 退 ， 简 化 程序 ， 直 到 得 到 一 
个 你 能 够 理解 并 且 正 确 运 行 的 程序 。 





新 手 程序 员 往 往 不 愿意 后 撤 ， 他 们 无 法 忍受 删除 一 行 代 码 〈 即 使 那 
是 错误 的 代码 ) 。 如 果 能 让 你 感觉 更 好 ， 可 以 将 程序 复制 到 万 外 一 个 文 
件 再 开始 删 减 它 。 这 样 以 后 束 可 以 一 点 一 点 地 复制 回来 。 








寻找 一 个 困难 的 bug， 需 要 阅读 、 运 行 、 沉 思 ， 甚 至 有 时 候 需 要 回 
退 。 如 果 你 在 这 其 中 一 个 环节 上 卡 住 了 ， 可 以 尝试 其 他 的 环节 。 


13.11 AiG 


确定 性 (deterministic) : 程序 的 一 种 特性 : 给 定 相 同 的 输入 ， 
次 运行 都 会 执行 相同 的 操作 。 


伪 随 机 (pseudorandom) : 一 序列 数 : 看 起 来 是 随机 的 ， 但 实际 上 
是 由 带 着 确定 性 的 程序 生成 的 。 





默认 值 (default value) : 可 选 形 参 声 明 时 给 定 的 值 ， 如 果 函 数 调 
用 时 没有 指定 这 个 实 参 的 值 ， 则 使 用 该 默认 值 。 





fet (override) : 使 用 实 参 值 蔡 换 一 个 默认 值 。 


基准 测试 (benchmarking〉: 实现 不 同 的 备 选 方案 ， 并 使 用 各 种 可 
能 输入 的 样本 来 测试 它们 ， 以 达到 选择 使 用 哪 种 数据 结构 的 目的 。 


ARIZ BS ig (rubber duck debugging) : 通过 向 类 似 橡皮 鸭 之 类 的 


静物 解释 你 的 问题 ， 进 行 调试 的 过 程 。 虽然 橡 皮 鸭 不 懂 Python， 但 通过 
诉说 和 解释 ， 可 以 帮助 你 解决 问题 。 


13.12 A 
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一 个 单词 的 “排名 ?是 它 在 单词 列表 中 按 频 率 排序 的 位 置 : 最 常见 的 
词 排名 第 1， 次 第 用 的 词 排 第 2?， 等 等 。 





齐 普 夫 定 律 (Zipf’s law) 描述 了 排名 和 自然 语言 中 词 频 的 关系 
(http://en.wikipedia.org/ wiki/Zipfs_law) 。 特 别 地 ， 它 预测 了 排名 为 r 
的 单词 的 频率 f: 








f=cr ” 


这 里 s 和 c 是 依赖 于 语言 和 文本 的 参数 。 如 果 在 表达 式 两 侧 都 调用 
对 数 ， 则 得 到 : 


log f=logc-slogr 


所 以 如 果 以 log r 为 横 轴 给 log 绘图 ， 则 会 得 到 斜率 为 -s ， 截 距 为 
logc 的 直线 。 


编写 一 个 程序 ， 从 文件 中 读 入 文本 ， 计 算 单词 词 频 ， 并 按照 词 频 的 
降 夺 ， 每 一 行 打 印 出 一 个 单词 ， 以 及 log『 和 log r 。 使 用 你 喜欢 的 制图 
程序 将 结果 以 图 表 形 式 展 现 出 来 ， 并 检查 它 是 人 否 为 直线 。 你 能 估计 s 的 
值 吗 ? 


解答 : http://thinkpython2.com/code/zipf.py。 要 运行 我 的 解答 ， 你 需 
要 安装 绘图 模块 matplot1lib 。 如 果 和 安装 过 Anaconda， 你 束 已 经 有 了 
matplot1lib ， 人 否则 你 可 能 需要 安装 它 。 





第 14 章 ”文件 


本 章 介 绍 “ 持 久 ” 程 序 的 概念 ， 它 们 将 数据 存储 到 持久 存储 中 。 为 
外 ， 我 们 还 会 看 到 不 同 种 类 的 持久 存储 ， 如 文件 和 数据 库 。 


14.1 持久 化 
我 们 现在 见 过 的 程序 都 是 瞬 态 的 ， 因 为 它们 会 在 短暂 的 时 间 里 运行 


出 一 些 输出 ， 但 当 运 行 结束 后 ， 它 们 的 数据 会 消失 。 如 果 再 次 运行 程 
序 ， 它 会 再 次 全 新 地 开始 。 





也 有 些 程序 是 持久 化 的 : 它们 会 运行 很 长 一 段 时 间 (或 者 一 直 运 
ÍT); 它们 会 至 少 存储 一 部 分 数据 到 永久 存储 例如， 人 硬盘) 中; 而 且 
如 有 果 它 们 被 关闭 重 局 后 ， 会 接着 从 上 次 离开 的 状态 继续 。 








持久 化 程序 的 例子 包括 操作 系统 ， 它 几乎 运行 在 任何 一 台 开 局 的 电 
脑 中 ， 以 及 web 服 务 嚣 ， 它 们 通常 持续 运行 ， 等 得 网 络 上 连 入 的 请 求 。 











读 写 文本 文件 是 程序 维护 数据 最 简单 的 方法 之 一 。 我 们 已 经 见 过 读 
取 文本 文件 的 程序 ， 在 本 章 中 将 会 见 到 往 文件 写 入 的 程序 。 





另 一 种 办 法 是 将 程序 的 状态 保存 到 数据 库 中 。 本 章 中 我 们 会 介绍 
个 简单 的 数据 库 ， 以 及 一 个 模块 ，pickle ， 用 来 简化 程序 数据 的 存 
fifi 





14.2” 读 和 和 写 





文本 文件 是 存储 在 诸如 硬盘 、 闪 存 或 光盘 的 永久 媒介 上 的 字符 串 序 
列 。 我 们 已 经 在 9.1 节 中 见 过 如 何 打 开 和 读 取 一 个 文件 。 


要 写 入 一 个 文件 ， 需 要 使 用 'w' 模式 作为 第 二 个 实 参 来 打开 它 : 


>>> fout = open('output.txt', 'w') 





HOR OF AEE, MEH SEAH ANS RA IHA A E 
开始 ， 所 以 请 谨慎 ! 如 果 文 件 不 存在 ， 则 会 新 建 一 个 。 


open 函数 返回 一 个 文件 对 象 ， 提 供 操作 文件 的 方法 。 其 中 write 
方法 把 数据 号 入 到 文件 中 。 
>>> line1 = "This here's the wattle, \n" 


>>> fout.write(line1) 
24 





返回 值 是 号 入 的 字符 数目 。 文 件 对 象 会 记录 写 到 了 哪里 ， 所 以 如 采 
你 再 次 调用 write ， 它 会 在 文件 的 结尾 处 添加 新 的 数据 。 





>>> line2 = "the emblem of our land.\n" 
>>> fout.write(line2) 
24 


pO 


当 写 入 完毕 时 ， 应 该 关闭 文件 。 


>>> fout.close() 





如 果 不 关闭 文件 ， 程 序 会 在 执行 结束 时 将 文件 关闭 。 
14.3 格式 操作 符 


write 的 参数 必须 是 字符 串 ， 所 以 各 我 们 想 要 往 文件 中 写 入 其 他 类 
型 的 值 ， 必 须 将 它们 先 转 换 为 字符 串 。 最 容易 的 办 法 是 使 用 str : 


>>> x = 52 
>>> fout.write(str(x)) 





男 一 个 办 法 是 使 用 格式 操作 符 % 。 当 用 于 整数 时 ，% 是 求 余 操 作 
从 。 但 耕 第 一 个 操作 对 象 是 字符 串 时 ，% 则 是 格式 操作 符 。 





% 的 第 一 个 操作 对 象 是 格式 字符 串 ， 包 括 了 一 个 或 多 个 格式 序列 
， 由 它们 来 指定 第 二 个 操作 对 象 如何 格 式 化 。 表 达 式 的 结果 是 一 个 字符 
串 。 





例如 ， 格 式 序列 '%d ' 意味 着 第 二 个 操作 数 应 该 被 格式 化 为 十 进 制 


整数 。 


>>> Camels = 42 
>>> '%d' % camels 
“42 





结果 是 字符 串 '42' ， 请 不 要 将 它 和 整数 值 42 混 消 。 


格式 序列 可 以 出 现在 字符 串 的 任意 地 方 ， 所 以 可 以 在 一 个 句子 中 髓 
入 变量 值 ; 


>>> 'I have spotted %d camels.' % camels 
"I have spotted 42 camels. ' 





如 打字 符 串 中 有 多 于 一 个 格式 厅 列 ， 第 二 个 操作 对 象 束 必须 是 元 
组 。 每 个 格式 序列 按 顺 序 对 应 元 组 中 的 一 个 元 素 。 








下 面 的 例子 使 用 '%d' 格式 化 整数 ，'%g' 格式 化 浮 点 数 ， 以 及 '%s' 
格式 化 字符 串 : 


>>> "In %d years I have spotted %g %s.' % (3，6.1， ‘camels') 
"In 3 years I have spotted @.1 camels.' 





元 组 中 元 又 的 个 数 必 须 和 字符 串 中 格式 序列 的 个 数 一 致 。 另 外 ， 元 


素 的 类 型 也 要 和 格式 序列 一 致 : 


>>> '%d %d %d' % (1, 2) 

TypeError: not enough arguments for format string 
>>> '%d' % ‘dollars’ 

TypeError: %d format: a number is required, not str 





第 一 个 例子 中 ， 元 组 中 元 素 个 数 不 够 ， 第 二 个 例子 中 ， 元 素 的 类 型 
不 对 。 


更 多 关于 格式 操作 符 的 信息 参见 
https://docs.python.org/3/library/stdtypes.html#printf-style- string- 
formatting。 还 有 一 个 更 强大 的 蔡 代 方案 是 字符 串 格 式 方法 ， 参 见 
https://docs.python.org/3/library/stdtypes.html#str.format. 


14.4 文件 名 和 路 径 








文件 组 织 在 目录 《也 称 为 文件 夹 ) 中 。 每 个 程序 都 有 “当前 目录 ”， 
它 是 大 多 数 操作 的 默认 目录 。 例 如 ， 当 打开 一 个 文件 用 于 读 取 时 ， 
Python 默认 在 当前 目录 寻找 它 。 





os 模块 提供 了 用 于 操作 文件 和 目录 的 函数 (os 代表 operating 
system， 即 操作 系统 ) 。os .getcwd 返回 当前 目录 的 名 称 : 





>>> import os 

>>> cwd = os.getcwd() 
>>> cwd 
"/home/dinsdale' 


| 


cwd 表示 current working directory 〈 即 “当前 工作 目录 ”) 。 这 个 例子 
里 的 结果 是 /home/dinsdale ， 是 名 为 dinsdale 的 用 户 的 主 目录 。 





类 似 于 '/home/dinsdale' 这 样 用 来 定位 一 个 文件 或 目录 的 字符 串 
被 称 为 一 个 路 径 〈path) 。 


而 一 个 简单 文件 名 ， 如 memo .txt ， 也 被 认为 是 一 个 路 径 ， 但 它 是 
一 个 相对 路 径 ， 因 为 它 依赖 于 当前 目录 。 如 果 当 前 目录 
是 /home/dinsdale ， 则 文件 名 memo .txt 指 的 


是 /home/dinsdale/memo.txt 。 


而 以 /开头 的 路 径 则 不 依赖 于 当前 目录 ， 所 以 被 称 为 绝对 路 径 
(absolute path) 。 可 以 使 用 os .path.abspath 来 找寻 文件 的 绝对 路 


pA 
4B: 


>>> oS.path.abspath('memo.txt' ) 
"/home/dinsdale/memo.txt' 





os.path 还 提供 了 其 他 函数 来 操作 文件 名 和 路 径 。 例 
如 ，os.path.exists 检查 一 个 文件 或 目录 是 否 存在 : 








>>> oS.path.exists('memo.txt') 
True 


pO 


如 果 它 存在 ，os .path.isdir 可 以 检查 它 是 否 为 目录 : 


>>> oS.path.isdir('memo.txt' ) 

False 

>>> oS.path.isdir('/home/dinsdale' ) 
True 





类 似 地 ，os.path.isfile 检查 它 是 否 为 文件 。 


os.listdir 返回 指定 目录 中 文件 〈 以 及 其 他 目录 ) 的 列表 : 





>>> os.listdir(cwd) 
['music', 'photos', 'memo.txt' ] 





为 了 演示 这 些 函 数 ， 下 面 的 例子 “ 走 吉 ”一 个 目录 ， 打 印 所 有 文件 的 
名 称 ， 并 对 之 中 的 子 目 录 递 归 调 用 上 自己 。 
def walk(dirname): 

for name in os.listdir(dirname): 


path = os.path.join(dirname, name) 


if os.path.isfile(path): 
print(path) 


else: 
walk(path) 





os.path. join 接收 一 个 目录 和 一 个 文件 名 称 ， 并 将 它们 拼接 为 一 
个 完整 的 路 径 。 


os 模块 提供 了 一 个 函数 walk ， 和 上 面 的 例子 作用 类 似 ， 但 功能 
丰富 。 作 为 练习 ， 请 阅读 文档， 并 使 用 它 打 印 指定 目录 中 文件 的 名 称 和 
它 的 子 目录 。 你 可 以 从 http://thinkpython2.com/code/walk.py 下 载 我 的 解 
答 。 








145 ”捕获 异常 





当 答 试 读 取 和 写 入 文件 时 ， 很 多 东西 都 可 能 出 错 。 如 果 答 试 打开 一 
个 不 存在 的 文件 ， 会 得 到 一 个 IOError : 


>>> fin = open('bad_file' ) 
IOError: [Errno 2] No such file or directory: ‘bad_file' 





如 果 没 有 权限 访问 一 个 文件 : 


>>> fout = open('/etc/passwd', 'w') 
PermissionError: [Errno 13] Permission denied: '/etc/passwd' 





如 果 答 试 打 开 一 个 目录 用 于 文件 恋 取 ， 会 得 到 : 





>>> fin = open('/home') 
IsADirectoryError: [Errno 21] Is a directory: '/home' 


要 避免 这 些 错误 ， 可 以 使 用 类 似 o0s .path .exists 和 
os.path.isfile 的 函数 ， 但 要 检查 所 有 的 可 能 需要 花费 大 量 时 间 和 代 
1 (“Errno 21” 这 个 名 字 ， 说 明 至 少 有 21 种 可 能 出 错 的 地 方 ) 。 








最 好 是 直接 去 尝试 一 一 等 发 生 问 题 时 再 去 解决 它们 一 一 这 也 正 
是 try 语句 所 做 的 事情 。 语 法 和 if...else 语句 类 似 : 





try: 
fin = open('bad file’) 
except: 
print (‘Something went wrong. ') 





Python 会 先 从 try 子 句 开始 ， 如 果 一 切 顺利 ， 则 跳 过 except 语句 
并 继续 执行 。 如 果 发 生 了 异常 ， 则 跳出 try 子 句 ， 并 运行 except F 
fje 


使 用 try 语句 处 理 异 常 的 过 程 称 为 捕获 一 个 异常 。 在 这 个 例子 
里 ，except 语句 打印 的 错误 信息 并 没有 太 多 用 处 。 总 的 来 说， 捕获 异 
常 给 了 你 一 个 修补 错误 的 机 会 ， 或 者 可 以 再 次 尝试 ， 或 者 至 少 能 够 优雅 
地 停止 程序 。 





14.6 ”数据 库 


数据 库 是 一 个 有 组 织 的 用 于 存储 数据 的 文件 。 许 多 数据 库 都 像 字 


典 一 样 组 织 数据 ， 因 为 它们 也 将 键 映 财 到 值 上 。 数 据 库 和 字典 之 间 最 大 
的 区 别 是 数据 库 是 保存 在 磁盘 上 《或 者 其 他 永久 存储 上 ) 的 ， 所 以 当 程 
序 结束 时 它 也 能 持续 存在 。 











模块 dbm 提供 了 接口 用 于 创建 和 更 新 数据 库 文 件 。 作 为 示例 ， 我 将 
会 创建 一 个 数据 库 保存 图 片 文件 的 标题 。 


打开 一 个 数据 库 和 打开 其 他 类 型 的 文件 差不多 : 


>>> import dbm 
>>> db = dbm.open('captions', 'c') 





模式 'c' 意味 着 数据 库 应 当 被 创建 ， 如 果 它 不 存在 的 话 。 调 用 的 结 
打 是 一 个 数据 库 对 象 ，《〈 对 大 多 数 操作 ) 可 以 当 作 字典 来 用 。 


当 创 建 一 个 新 项 时 ，dbm 会 更 新 数据 库 文件 。 


>>> db['cleese.png'] = 'Photo of John Cleese.， 





当 访问 数据 库 中 的 一 项 时 ，dbnm 会 读 取 文 件 : 


>>> db['cleese.png ] 
b'Photo of John Cleese.' 








这 里 的 结果 是 一 个 字 节 组 对 象 (bytes object) ， 因 此 以 b 开头 。 字 
节 组 对 象 和 字符 串 很 类 似 。 当 你 更 加 深入 研究 Python 的 时 候 ， 它 们 的 区 
别 可 能 会 变 得 很 重要 ， 但 现在 可 以 忽略 。 








如 果 对 一 个 已 经 存在 的 键 赋值 ，dbm 22 IHE: 


>>> db['cleese.png'] = 'Photo of John Cleese doing a silly walk. ' 
>>> db['cleese.png' ] 
b'Photo of John Cleese doing a silly walk. ' 





有 一 些 字典 方法 ， 如 keys 和 items ， 对 数据 库 对 象 不 可 以 使 用 。 
但 使 用 for 循环 来 迭代 遍历 是 可 以 的 : 


for key in db: 
print(key, db[key]) 








和 其 他 文件 一 样 ， 当 操作 结束 时 ， 需 要 关闭 数据 库 : 


>>> db.close() 


14.7 封存 
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他 类 型 ， 则 会 出 现 错误 。 


pickle 模块 可 以 帮忙 。 它 可 以 将 几乎 所 有 关 型 的 对 象 转换 为 适合 
保存 到 数据 库 的 字符 串 形 式 ， 并 可 以 将 字符 串 转 换 回 来 成 为 对 象 。 


pickle.dumps 接收 一 个 对 象 作为 参数 ， 并 返回 它 的 字符 串 表 达 形 
式 (dumps 是 “dump string” 的 简写 ， 意 即 转 储 字 符 串 〉: 


>>> import pickle 

>>> t = [1, 2, 3] 

>>> pickle.dumps(t) 

b'\x80\x@3 ]q\x@0@(K\xO1K\x@2K\x@3e. ' 





这 个 格式 不 适合 人 眼 阅 读 ， 它 是 为 了 方便 pickle 模块 的 转换 而 设 
计 的 。pickle.loads (load string， 即 加 载 字 符 串 ) 重新 构造 对 象 : 


>>> t1 = [1, 2, 3] 

>>> S = pickle.dumps(t1) 
>>> t2 = pickle.loads(s) 
>>> t2 

[1, 2, 3] 





里 然 新 的 对 象 和 旧 有 对 象 的 值 相同 ， 但 〈 通 第 来 说 〉 它 们 不 是 同一 
DATA: 





>>> ti == t2 
True 
>>> t1 is t2 
False 


也 就 是 说 ， 封 存 再 解 封 ， 和 复制 对 象 效果 相同 。 


你 可 以 使 用 pickle 向 数据 库存 储 非 字符 串 的 值 。 事 实 上 ， 这 个 组 
合 如 此 和 常用， 以 至 于 Python 已 经 将 它们 封装 起 来 成 为 一 个 模块 ， 叫 
作 shelve。 


Vv 


14.8 ”管道 


大 部 分 操作 系统 都 提供 了 命令 行 接口 ， 也 称 为 字符 界面 
(shell)。 字 符 界 面 通常 会 提供 命令 来 浏览 文件 系统 和 局 动 应 用 程序 。 
例如 ， 在 Unix 中 ， 可 以 使 用 cd 来 更 换 目 录 ， 使 用 ls 来 展示 目录 中 的 内 
容 ， 以 及 打 入 firefox 来 启动 浏览 器 。 


任何 在 字符 界面 能 局 动 的 程序 都 可 以 在 Python 中 使 用 管道 对 象 
(pipe object) 来 局 动 。 管 道 对 象 代 表 一 个 正在 运行 的 程序 。 








例如 ，Unix 命 令 1s -1 以 长 格式 展示 当前 目录 的 内 容 。 可 以 使 
用 os .popen [1 来 启动 ls : 


>>> cmd = ‘ls -1 
>>> fp = os.popen(cmd) 





参数 是 一 个 字符 串 ， 它 包含 一 个 shell 命 令 。 返 回 值 是 一 个 和 打开 的 





文件 差不多 的 对 象 。 可 以 使 用 readline 来 逐 行 读 取 1s 进程 的 输出 ， 或 
者 使 用 read 一 次 读 取 所 有 输出 : 


>>> res = fp.read() 





当 你 完成 时 ， 可 以 像 文件 一 样 关闭 这 个 管道: 


>>> stat = fp.close() 
>>> print(stat) 
None 





返回 值 是 1s 进程 的 最 终 状 态 ，None 代表 它 正常 结束 了 《没有 错 
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例如 ， 大 部 分 Unix 系 统 都 提供 了 一 个 叫 作 md5sum 的 命令 ， 它 读 取 
文件 的 内 容 并 计算 出 一 个 “ 校 验 和 ”(checksum) 。 你 可 以 在 
http://en.wikipedia.org/wiki/JMd5 阅 读 MD5 的 相关 信息 。 这 个 命令 提供 了 
一 个 高 效 的 方法 ， 用 来 对 比 两 个 文件 是 否 包含 相同 的 内 容 。 不 同 的 内 容 
生成 相同 的 校 验 和 的 概率 极 低 〈( 也 就 是 ， 在 宇宙 月 尝 之 前 不 大 可 能 发 
AE) 。 





可 以 在 Python 中 使 用 管道 来 运行 nd5sum ， 并 获得 结果 : 





>>> filename = 'book.tex' 
>>> cmd = 'mdSsum ' + filename 
>>> fp = os.popen(cmd) 


>>> res = fp.read() 

>>> stat = fp.close() 

>>> print res 
1e0033f0ed0656636de0d75144ba32e0 book.tex 
>>> print(stat) 

None 





14.9 ”编写 模块 


任何 包含 Python 代 码 的 文件 都 可 以 作为 模块 导入 。 例 如 ， 如 果 你 有 
一 个 文件 wc .py ， 其 代码 如 下 : 


def linecount(filename): 
count = 6 
for line in open(filename): 
count += 1 
return count 


print(linecount('wc.py' )) 
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数 ， 即 7。 你 也 可 以 像 这 样 导入 它 : 


>>> import wc 
7 


现在 你 有 一 个 模块 对 象 wc T: 


>>> WC 
<module 'wc' from 'wc.py'> 





该 模块 对 象 提供 了 linecount : 


>>> wc.linecount('wc.py') 
7 





上 述 就 是 在 Python 中 编写 模块 的 方法 。 





这 个 例子 唯一 的 问题 是 当 你 导入 模块 时 ， 它 会 运行 底部 的 测试 代 
码 。 正 常情 况 下 ， 当 你 导入 一 个 模块 时 ， 它 会 定义 新 的 函数 ， 但 不 会 运 
行 。 





作为 模块 导入 的 程序 ， 通 常 使 用 如 下 模式 : 


if name _ == '_ _main_ _ 
print(linecount('wc.py 5) 








_name 是 一 个 内 置 变量 ， 当 程序 启动 时 就 会 被 设置 。 如 果 程序 
作为 脚本 执行 ，_name ”的 值 是 ，_ main _，， 此 时 ， 测 试 代码 会 被 
运行 。 和 否则， 如 果 程 序 作为 模块 被 导入 ， 则 测试 代码 就 被 跳 过 了 。 





作为 练习 ， 把 这 个 例子 输入 到 一 个 文件 wc.py 中 ， 并 将 它 作为 一 个 


脚本 运行 。 然 后 运行 Python 解释 器 ， 并 导入 wc 。 当 模块 被 导入 
时 ， name _ 的 值 是 什么 ? 


警告 : 如果 你 导入 一 个 已 经 被 导入 的 模块 ，Python 什 么 都 不 做 。 它 
不 会 重新 读 取 文件 ， 即 使 文件 已 经 修改 。 


如 果 你 想 要 重 载 一 个 模块 ， 可 以 使 用 内 置 函数 reload ， 但 它 也 可 
Eb 会 有 藉 手 的 问题 。 所 以 最 安全 的 办 法 是 重启 解释 器 ， 并 再 次 导入 模 
块 。 


14.10 ”调试 


当 你 读 取 和 写 入 文件 时 ， 可 能 会 遇 到 和 空白 字符 相关 的 问题 。 这 些 
问题 可 能 会 很 难 调试 ， 因 为 空格 、 制 表 符 和 换行 符 通 党 都 是 不 可 见 的 : 


>>> s = '1 2\t 3\n 4 
>>> print(s) 

1 2 3 

4 





内 置 函数 repr 可 以 帮忙 。 它 接收 任何 对 象 作为 参数 ， 并 返回 对 象 
的 字符 串 表达 形式 。 对 于 字符 串 来 说 ， 它 使 用 反 斜 杠 序列 来 展示 空白 字 
符 : 








>>> print (repr(s)) 
"1 2\t 3\n 4' 


[L CR 


这 样 可 以 帮助 调试 。 





为 一 个 你 可 能 过 到 的 问题 是 不 同 的 系统 使 用 不 同 的 字符 表示 换行 。 
有 的 系统 使 用 一 个 换行 符 ， 即 \n 。 男 外 的 系统 使 用 一 个 回 车 符 ， 即 \r 
。 也 有 的 系统 两 者 都 使 用 。 如 果 你 在 不 同 的 系统 间 移 动 文件 ， 这 些 不 一 
致 之 处 可 能 会 导致 问题 。 


大 多 数 系统 都 有 程序 可 以 将 一 种 格式 转换 为 另 一 种 。 你 可 以 在 
http://en.wikipedia.org/wiki/ Newline 找 到 它们 (并 阅读 这 个 问题 的 更 多 信 
A). he, 当然 ;和 怀 也 司 以 目 己 写 == 个 。 


14.11 术语 表 


持久 性 (persistent) : 程序 的 一 种 属性 ， 它 会 一 直 运 行 ， 并 至少 保 
存 一 部 分 数据 在 永久 存储 中 。 


格式 操作 符 (format operator) : 一 个 操作 符 ， 即 % ， 它 接收 一 个 
格式 字符 串 ， 以 及 一 个 元 组 ， 并 生成 字符 串 ， 其 中 包括 了 元 组 的 各 个 依 
据 格式 字符 串 里 指定 的 方式 格式 化 的 元 素 。 





格式 字符 串 (format string) : 一 个 字符 串 ， 被 格式 操作 符 所 用 ， 
内 部 包含 格式 序列 。 


格式 序列 (format sequence) : 格式 字符 串 中 出 现 的 字符 序列 ， 
如 %d ， 它 指定 一 个 值 如 何 格式 化 。 


文本 文件 Ctext file) : 存储 在 类 似 硬 盘 这 样 的 永久 存储 中 的 字符 
串 序 列 。 

目录 (directory) : 有 名 称 的 文件 集合 。 也 称 为 文件 夹 。 

路 径 (path) : 用 来 标定 一 个 文件 的 字符 串 。 

相对 路 径 (relative path) : 从 当前 目录 开始 的 路 径 。 

绝对 路 径 (absolute path) : 从 文件 系统 的 顶级 目录 开始 的 路 径 。 


捕获 Ccatch) : 使 用 try 和 except 语句 来 阻止 一 个 异常 终止 程序 


数据 库 〈database) : 一 个 文件 ， 其 内 容 组 织 类 似 于 字典 ， 将 键 映 
SM BIE 


字 市 组 对 象 (bytes object) : 一 个 和 字符 串 相似 的 对 象 。 


2 


令 行 (shell) : 一 个 程序 ， 人 允许 用 户 键入 命令 并 通过 调用 其 他 程 
序 来 执行 


管道 对 象 (pipe object) : 代表 一 个 运行 中 的 程序 的 对 象 ， 让 
Python 程 序 可 以 运行 命令 并 读 取 结 果 。 





14.12 练习 


练习 14-1 


写 一 个 名 为 sed 的 函数 ， 接 收 如 下 参数 : 一 个 模式 字符 串 ， 一 个 著 
换 用 字符 串 ， 以 及 两 个 文件 名 。 它 应 该 读 取 第 一 个 文件 ， 并 将 内 容 写 入 
第 二 个 文件 《如果 需要 则 新 建 它 ) 。 如 果 文 件 中 任何 地 方 出 现 了 模式 字 
TE, MZB RH. 








如 宁 在 打开 、 读 取 、 写 入 或 关闭 文件 的 过 程 中 遇 到 错误 ， 你 的 程序 
应 当 能 捕获 录 常 ， 打 印 一 个 错误 信息 ， 并 退出 。 


解答 : http://thinkpython2.com/code/sed.py。 
练习 14-2 


如 果 你 从 http://thinkpython2.com/code/anagram_sets.py 下 载 我 对 练习 
12-2 的 解答 ， 你 会 发 现 它 创 建 一 个 字典 ， 将 一 个 排 好 序 的 字母 串 映 射 到 
可 以 由 这 些 字 母 组 成 的 单词 的 列表 。 例 如 ， "opst ' 映射 到 
['opts', "post'， 'pots', 'spot', 'stop', 'tops'] 列表 。 


编写 一 个 模块 ， 导 入 anagram_sets ， 并 提供 两 个 新 函 
数 : store_anagrams 应 当 存 储 回 文字 典 到 一 
个 “shelf” 中 ; read_anagrams 应 当 碍 询 一 个 单词 ， 并 返回 它 的 回 文 的 
列表 。 


解答 : http://thinkpython2.com/code/anagram_db.py。 


练习 14-3 





企 一 个 庞大 的 MP3 文 件 的 集合 中 ， 有 可 能 同一 首 歌 有 多 个 副本 ， 保 
存在 不 同 的 目录 中 ， 或 者 文件 名 不 同 。 这 个 练习 的 目的 是 搜索 重复 的 











1. 编写 一 个 程序 递归 搜索 目录 及 其 所 有 的 子 目 录 ， 并 返回 所 有 指 
定 后 级 (如 .mp3 ) 的 文件 的 完整 路 径 的 列表 。 提 示 : os .path 提供 了 
几 个 有 用 的 方法 来 操纵 文件 和 路 径 名 称 。 


2. 要 发 现 重复 文件 ， 需 要 使 用 md5sum 来 计算 每 个 文件 的 “ 校 验 
和 ”。 如 果 两 个 文件 的 校 验 和 相同 ， 它 们 很 可 能 有 相同 的 内 容 。 


3. 你 可 以 使 用 Unix 命 令 diff 来 复审 检验 。 


解答 : http://thinkpython2.com/code/find_duplicates.py 





[1] popen 现在 已 经 计划 废止 了 ， 也 就 是 说 我 们 应 当 不 再 使 用 它 ， 而 是 开 
始 使 用 subprocess 模块 。 但 对 于 简单 的 情形 ， 我 发 现 subprocess 过 
度 复 杂 了 。 所 以 我 仍然 继续 使 用 popen ， 直 到 它 被 完全 废止 。 





第 15 章 ”类 和 对 象 


到 现在 你 已 经 知道 如 何 使 用 函数 来 组 织 代码 ， 以 及 如 何 用 内 置 类 型 
来 组 织 数据 。 下 一 步 将 学 习 “ 面 癌 对 象 编程 >， 面 问 对 象 编 程 使 用 目 定义 
的 类 型 同时 组 织 代码 和 数据 。 面 向 对 象 编程 是 一 个 很 大 的 话题 


题 ， 需 要 好 
几 章 来 讨论 。 





本 章 的 代码 示例 可 以 从 http:Wthinkpython2.com/code/Point1.py 下 载 ， 
练习 的 解答 可 以 在 http://thinkpython2.com/code/Point1_soln.py 下 载 。 


Je ne Cede 
我 们 已 经 使 用 了 很 多 Python 的 内 置 类 型 ， 现 在 我 们 要 定义 一 个 新 类 


型 。 作 为 示例 ， 我 们 将 会 新 建 一 个 类 型 Point ， 用 来 表示 二 维 空间 中 的 


二 | > o 
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如 ，(0, 0) 表 示 原 点 ， 而 (xX,y ) 表 示 一 个 在 原点 右 侧 x 单位 ， 上 方 y 单位 的 
Fao 





在 Python 中 ， 有 好 几 种 方法 可 以 表达 点 。 


。 我 们 可 以 将 两 个 坐标 分 别 保存 到 变量 x 和 y 中 。 
。 我 们 可 以 将 坐标 作为 列表 或 元 组 的 元 聚 存储 。 
。 我 们 可 以 新 建 一 个 类 型 用 对 象 表达 点 。 


新 建 一 个 类 型 比 其 他 方法 更 复杂 一 些 ， 但 它 的 优点 很 快 就 会 显现 出 
来 。 


用 户 定 义 的 类 型 也 称 为 类 (class) 。 类 的 定义 如 下 所 示 : 


class Point: 
"""Represents a point in 2-D space.""" 





定义 头 表示 新 的 类 名 为 Point 。 定 义 体 是 一 个 文档 字符 串 ， 解 释 这 
个 类 的 用 途 。 可 以 在 类 定义 中 定义 变量 和 函数 ， 我 们 会 在 后 面 回 到 这 个 


话题 。 





定义 一 个 叫 作 Point 的 类 会 创建 一 个 对 象 类 (object class) 。 


>>> Point 
<class ' main .Point'> 





因为 Point 是 在 程序 顶层 定义 的 ， 它 的 “全 名 ”是 _ main __.Point 


类 对 象 像 一 个 创建 对 象 的 工厂 。 要 新 建 一 个 Point 对 象 ， 可 以 把 
Point 当 作 函数 来 调用 : 





>>> blank = Point() 
>>> blank 
<_ main .Point object at @xb7e9d3ac> 


返回 值 是 到 一 个 Point 对 象 的 引用 ， 我 们 将 它 赋值 给 变量 blank 。 


新 建 一 个 对 象 的 过 程 称 为 实例 化 〈instantiation) ， 而 对 象 是 这 个 
类 的 一 个 实例 。 


在 打印 一 个 实例 时 ，Python 会 告诉 你 它 所 属 的 类 型 ， 以 及 存储 在 内 
存 中 的 位 置 (前 级 8x 表示 后 面 的 数字 是 十 六 进 制 的 ) 。 





每 个 对 象 都 是 茶 个 类 的 实例 ， 所 以 "对象 ? 和 "实例 ”这 两 个 词 很 多 情 
况 下 都 可 以 互 换 。 但 是 ， 在 本 章 中 我 使 用 “实例 ”来 表示 一 个 目 定 义 类 型 
的 对 象 。 











15.2 属性 


可 以 使 用 句点 表示 法 来 给 实例 赋值 : 


>>> blank. 
>>> blank. 





这 个 语法 和 从 模块 中 选择 变量 的 语法 类 似 ， 如 math .pi 或 
者 string.whitespace 。 但 在 这 种 情况 下 ， 我 们 是 将 值 赋 给 一 个 对 象 
的 有 命名 的 元 素 。 这 些 元 素 称 为 属性 〈attribute) 。 





作为 名 词 时 ，“AT-trib-ute” 发 音 的 重音 在 第 一 个 音节 ， 这 与 作为 动 


词 的 “a-TRIB-ute” 不 同 。 





下面 的 图 表 展 示 了 这 些 赋 值 的 结果 。 展 示 一 个 对 象 和 其 属性 的 状态 
图 称 为 对 象 图 (object diagram) ， 参 见 图 15-1。 


Point 


blank x 一 > 3.0 
y —> 4.0 


图 15-1 对象 图 





变量 blank 引用 向 一 个 Point 对 象 ， 它 包含 了 两 个 属性 。 每 个 属性 引 
用 一 个 译 点 数 。 


可 以 使 用 相同 的 语法 来 读 取 一 个 属性 的 值 : 


>>> blank.y 

4.0 

>>> x = blank.x 
>>> X 


3.0 





表达 式 blank.x 表示 , “找到 blank 引用 的 对 象 ， 并 取得 它 的 x 属 
性 的 值 "?。 在 这 个 例子 中 ， 我 们 将 那个 值 赋值 给 一 个 变量 x 。 变 量 x 和 属 
性 x 并 不 冲突 。 





可 以 在 任意 表达 式 中 使 用 句点 表示 法 。 例 如 : 


>>> '(%g, %g)' % (blank.x, blank.y) 

'(3.0, 4.0)' 

>>> distance = math.sqrt(blank.x**2 + blank.y**2) 
>>> distance 


5.0 








可 以 将 一 个 实例 作为 实 参 按 通 种 的 方式 传递 。 例 如 : 


def print_point(p): 
print('(%g, %g)' % (p.x, p-y)) 








print_point 接收 一 个 点 作为 形 参 ， 并 按照 数学 表达 式 展 示 它 。 
可 以 传 入 blank 作为 实 参 来 调用 它 : 


>>> print point(blank) 
(3.0, 4.0) 





在 函数 中 ，p 是 blank 的 一 个 别名 ， 所 以 如 果 函 数 修 改 了 p ， 
则 blank 也 会 改变 。 


作为 练习 ， 编 写 一 个 叫 作 distance_between points 的 函数 ， 接 
收 两 个 Point 对 象 作 为 形 参 ， 并 返回 它们 之 间 的 距离 。 


15.3 ”矩形 





有 时 候 对 象 应 该 有 哪些 属性 非常 明显 ， 但 也 有 时 候 需 要 你 来 做 决 
定 。 例 如 ， 假 设 你 在 设计 一 个 表达 和 窍 形 的 类 。 你 会 用 什么 属性 来 指定 一 
个 矩形 的 位 置 和 尺寸 呢 ? 可 以 忽略 角度 ， 为 了 简单 起 见 ， 假 定 矩 形 不 是 
HE A wt ze 7K-F KY 





最 少 有 以 下 两 种 可 能 。 


。 可 以 指定 一 个 矩形 的 一 个 角落 《或 者 中 心 点 ) 、 宽 度 以 及 高 度 。 
。 可 以 指定 两 个 相对 的 角落 。 


现在 还 很 难说 哪 一 种 方案 更 好 ， 所 以 作为 示例 ， 我 们 仅 先 实现 第 一 


A 


下 面 是 这 个 类 的 定义 : 


class Rectangle: 
nun Represents a rectangle . 


attributes: width, height, corner. 





文档 字符 串 列 出 了 属性 : width 和 height 是 数字 ; corner 是 一 个 
Point 对 象 ， 用 来 指定 左下 角 的 顶点 。 


要 表达 一 个 算 形 ， 需 要 实例 化 一 个 Rectangle 对 象 ， 并 对 其 属性 赋 
值 : 


box = Rectangle() 
box.width = 100.0 


box.height = 200.0 
box.corner = Point() 
box.corner.x = 0.0 
box.corner.y = 0.0 





表达 式 box.corner.x RIR, “去 往 box 引用 的 对 象 ， 并 选择 属 


性 corner ; 接着 去 往 那 个 对 象 ， 并 选择 属性 x ”。 





图 15-2 展 示 了 这 个 对 象 的 状态 。 作 为 另 一 个 对 象 的 属性 存在 的 对 象 
HEALER 的。 


Rectangle 


height —> 200.0] x > 90 
corner y > 00 





图 15-2 对象 图 


15.4 ”作为 返回 值 的 实例 


pk o 例如 ，find_center 接收 Rectangle 对 象 作 
为 参数 ， 并 返回 一 个 Point 对 象 ， 包 含 这 个 Rectangle MAL AAA 
标 : 





def find_center(rect): 
p = Point() 
p.X = rect.corner.x + rect.width/2 
p.y = rect.corner.y + rect.height/2 


return p 


下 面 是 一 个 示例 ， 传 入 box 作为 实 参 ， 并 将 结果 的 Point 对 象 赋 给 变 


.El 
center: 


>>> center = find_center (box) 
>>> print_point(center) 
(50, 100) 





15.5 ”对象 是 可 变 的 


可 以 通过 给 一 个 对 象 的 某 个 属性 赋值 来 修改 它 的 状态 。 例 如 ， 要 修 
改 一 个 矩形 的 尺寸 而 保持 它 的 位 置 不 变 ， 可 以 修改 属性 width 和 
height 的 值 : 


box.width = box.width + 56 
box.height = box.height + 100 





也 可 以 编写 函数 来 修改 对 象 。 例 如 ，grow_rectangle 接收 一 个 
Rectangle 对 象 和 两 个 数 ，dwidth 和 dheight ， 并 把 这 些 数 加 到 和 矩形 的 
宽度 和 高 度 上 : 


def grow rectangle(rect, dwidth, dheight): 


rect .width += dwidth 
rect.height += dheight 





下 面 是 展示 这 个 函数 效果 的 示例 : 


>>> box.width, box.height 
(150.0, 300.0) 

>>> grow_rectangle(box, 50, 100) 
>>> box.width, box.height 
(200.0, 400.0) 





在 函数 中 ，rect 是 box 的 别名 ， 所 以 如 果 当 修改 了 rect I, box 
也 改变 。 


作为 练习 ， 编 写 一 个 名 为 move_rectangle 的 函数 ， 接 收 一 个 
Rectangle 对 象 和 两 个 分 别名 为 dx 和 dy 的 数值 。 它 应 当 通 过 将 dx 添加 
到 corner 的 x 坐标 和 将 dy 添加 到 corner My 坐标 来 改变 矩形 的 位 置 。 


15.6 复制 





别名 的 使 用 有 时 候 会 让 程序 更 难 疝 读 ， 因 为 一 个 地 方 的 修改 可 能 会 
给 其 他 地 方 带 来 意 想 不 到 的 变化 。 要 跟踪 掌握 所 有 引用 到 一 个 给 定 对 象 
的 变量 非常 困难 。 








使 用 别名 的 常用 蔡 代 方案 是 复制 对 象 。copy 模块 里 有 一 个 函 
数 copy 可 以 复制 任何 对 象 : 


= Point() 
x = 3.0 
-y = 4.0 


import copy 
p2 = copy.copy(p1) 





pl 和 p2 包含 相同 的 数据 ， 但 是 它们 不 是 同一 个 Point 对 象 。 


print_point(p1) 
4) 
print_point(p2) 





正如 我 们 预料 ，is 操作 符 告 诉 我 们 p1 和 p2 不 是 同一 个 对 象 。 但 你 
可 能 会 预料 == 能 得 到 True 值 ， 因 为 这 两 个 点 包含 相同 的 数据 。 如 果 那 
样 ， 你 会 失望 地 发 现 对 于 实例 来 说 ，== 操作 符 的 默认 行为 和 is 操作 符 
相同 ， 它 会 检查 对 象 同 一 性 ， 而 不 是 对 象 相等 性 。 这 是 因为 对 于 用 户 自 





定义 类 型 ，Python 并 不 知道 怎么 才 算 相等 。 至 少 现在 还 不 行 。 


如 果 使 用 copy .copy 复制 一 个 Rectangle， 你 会 发 现 它 复制 了 
Rectangle 对 象 但 并 不 复制 内 磐 的 Point 对 象 : 





>>> box2 = copy.copy(box) 
>>> box2 is box 
False 


>>> box2.corner is box.corner 
True 





图 15-3 展 示 了 这 个 操作 的 对 象 图 。 这 个 操作 称 为 浅 复制 (shallow 
copy) ， 因 为 它 复 制 对 象 及 其 包含 的 任何 引用 ， 但 不 复制 内 峙 对 象 。 





box width —> 100.0 100.0<— width |jx—box2 
height —> 200.0 200.0<— height 


corner corner 





图 15-3 ”对 象 图 


对 于 大 多 数 应 用 ， 这 并 不 是 你 所 想 要 的 。 在 这 个 例子 里 ， 对 一 个 
Rectangle 对 象 调用 grow_rectangle 并 不 会 影响 其 他 对 象 ， 但 对 任何 一 
个 Rectangle 对 象 调 用 move_rectangle 都 会 影响 全 部 两 个 对 象 ! 这 种 行 
为 既 混 乱 不 清 ， 又 容易 导致 错误 。 


幸好 ，copy 模块 还 提供 了 一 个 名 为 deepcopy 的 方法 ， 它 不 但 复制 
对 象 ， 还 会 复制 对 象 中 引用 的 对 象 ， 甚 至 它们 引用 的 对 象 ， 依 次 类 
推 。 所 以 你 并 不 会 惊讶 这 个 操作 为 何 称 为 深 复制 (deep copy) 。 
>>> box3 = copy.deepcopy(box) 


>>> box3 is box 
False 


>>> box3.corner is box.corner 


False 





box3 和 box 是 两 个 完全 分 开 的 对 象 。 
作为 练习 ， 编 写 move_rectangle 的 另 一 个 版 本 ， 它 会 新 建 并 返回 
一 个 Rectangle 对 象 ， 而 不 是 直接 修改 旧 对 象 。 


15.7 调试 


开始 操作 对 象 时 ， 可 能 会 遇 到 一 些 新 的 异常 。 如 果 试 图 访问 一 个 并 
不 存在 的 属性 ， 会 得 到 AttributeError : 


>>> Point() 
>>> = 3 


>>> p.y = 4 
>>> p. 


AttributeError: Point instance has no attribute 'z' 





如 果 不 清楚 一 个 对 象 是 什么 类 型 ， 可 以 问 : 


>>> type(p) 
<class '_ _main_ _.Point'> 














也 可 以 使 用 isinstance 来 检查 对 象 是 否 是 某 个 类 的 实例 : 





>>> isinstance(p, Point) 
True 


L Oò 


如 果 不 确 定 一 个 对 象 是 否 拥有 某 个 特定 的 属性 ， 可 以 使 用 内 置 函 
数 hasattr : 





>>> hasattr(p, 'x') 
True 
>>> hasattr(p, 'z') 
False 





第 一 个 形 参 可 以 是 任何 对 象 ， 第 二 个 形 参 是 一 个 包 合 属性 名 称 的 字 


也 可 以 使 用 try 语句 来 洽 试 对 象 是 否 拥有 你 需要 的 属性 : 


X = p.x 
except AttributeError: 
x = 0 





这 种 方法 可 以 使 编写 适用 于 不 同类 型 的 函数 更 加 容易 。 关 于 这 一 主 
题 的 更 多 内 容 参见 17.9 节 。 


15.8 NEK 


类 (class) : 一 个 用 户 定义 的 类 型 。 类 定义 会 新 建 一 个 类 对 象 。 


类 对 象 (class object) : 一 个 包含 用 户 定 义 类 型 的 信息 的 对 象 。 类 
对 象 可 以 用 来 创建 该 类 型 的 实例 。 


实例 Cinstance) : 属于 茶 个 类 的 一 个 对 象 。 

实例 化 Cinstanciate) : 创建 一 个 新 对 象 。 

属性 Cattribute) : 一 个 对 象 中 关联 的 有 命名 的 值 。 

ARIZ (embedded object) : 作为 一 个 对 象 的 属性 存储 的 对 象 。 


eZ til] (shallow copy) : 复制 对 象 的 内 容 ， 包 括 内 舰 对 象 的 引 
FA; copy 模块 中 的 copy 函数 实现 了 这 个 功能 。 


深 复 制 (deep copy) : 复制 对 象 的 内 容 ， 也 包括 内 骨 对 象 ， 以 及 
CIARN ZR, KRAHE; copy 模块 中 的 deepcopy 函数 实现 了 这 个 
功能 。 


对 象 图 (object diagram) : 一 个 展示 对 象 、 对 象 的 属性 以 及 属性 
的 值 的 网 。 


15.9 ”练习 
练习 15-1 


定义 一 个 新 的 名 为 Circle 的 类 表示 圆 形 ， 它 的 属性 有 center 和 


radius ， 其 中 center 是 一 个 Point 对 象 ， 而 radius 是 一 个 数 。 





实例 化 一 个 Circle 对 象 来 代表 一 个 圆心 在 (150, 100)、 半 径 为 75 的 圆 


A 
IA o 


编写 一 个 函数 point_in_circle ， 接 收 一 个 Circle 对 象 和 一 个 Point 
对 象 ， 并 当 Point 处 于 Circle 的 边界 或 其 内 时 返回 True 。 


编写 一 个 函数 rect_in_circle ， 接 收 一 个 Circle 对 象 和 一 个 
Rectangle 对 象 ， 并 在 Rectangle 的 任何 一 个 角落 在 Circle 之 内 时 返回 
True。 另 外 ， 还 有 一 个 更 难 的 版 本 ， 需 要 在 Rectangle 的 任何 部 分 都 落 在 
圆圈 之 内 时 返回 True。 


解答 : http://thinkpython2.com/code/Circle.py 。 
练习 15-2 


编写 一 个 名 为 draw_rect 的 函数 ， 接 收 一 个 Turtle 对 象 和 一 个 
Rectangle 对 象 作为 形 参 ， 并 使 用 Turtle 来 绘制 这 个 Rectangle。 如 何 使 用 
Turtle 对 象 的 示例 参见 第 4 章 。 





编写 一 个 名 为 draw_rect 的 函数 ， 接 收 一 个 Turtle 对 象 和 一 个 Circle 
对 象 ， 并 绘制 出 Circle。 


解答 : http://thinkpython2.com/code/draw.py 。 


第 16 章 ”类 和 函数 


现在 我 们 已 经 知道 如 何 创建 新 的 类 型 ， 下 一 步 是 编写 接收 用 户 定 义 
对 象 作为 参数 或 者 将 其 当 作 结果 返回 的 函数 。 本 章 我 会 展示 “函数 式 编 
程 风 格 ?， 以 及 两 个 新 的 程序 开发 计划 。 





本 章 的 代码 示例 可 以 从 http://thinkpython2.com/code/Timel.py 下 载 。 
练习 的 解答 在 http://thinkpython2.com/code/Time1_soln.py。 


16.1 时间 


作为 用 户 定义 类 型 的 男 一 个 例子 ， 我 们 定义 一 个 叫 作 Time 的 类 ， 
用 于 记录 一 天 里 的 时 间 。 类 定义 如 下 : 


class Time: 
"""Represents the time of day. 


attributes: hour, minute, second 





我 们 可 以 创建 一 个 Time 对 象 并 给 其 属性 小 时 数 、 分 钟 数 和 秒 钟 数 
WME: 





time = Time() 
time.hour = 11 
time.minute = 59 


time.second = 30 





Time 对 象 的 状态 图 参见 图 16-1。 


作为 练习 ， 编 写 一 个 叫 作 print_time 的 函数 ， 接 收 一 个 Time 对 象 
作为 形 参 并 以 “hour :minute:second ”的 格式 打印 它 。 提 示 : 格式 序 
列 '%.2d" 可 以 以 最 少 两 个 字符 打印 一 个 整数 ， 如 果 需 要 ， 它 会 在 前 面 
USI A ARO 

Time 
time —> hour —> 11 


minute —> 59 


second —> 30 





图 16-1 对象 图 


编写 一 个 布尔 函数 is_after ， 接 收 两 个 Time 对 象 ，t1 和 t2 ， 并 
若 t1 在 t2 时 间 之 后 则 返回 True ， 和 否则 返回 False 。 挑 战 : 不 许 使 
Hif 表达 式 。 


16.2 2E pK ži 


在 下 面 几 节 中 ， 我 们 会 编写 两 个 用 来 增加 时 间 值 的 函数 。 它 们 展示 
了 两 种 不 同类 型 的 函数 ， 纯 函数 和 修改 絮 。 它 们 也 展示 了 我 会 称 为 原型 


和 补丁 (prototype and patch) 的 开发 计划 。 这 是 一 种 对 应 复杂 问题 的 
方法 ， 从 一 个 简单 的 原型 开始 ， 并 逐渐 解决 更 多 的 复杂 情况 。 


下 面 是 add_time 的 一 个 简单 原型 : 


def add time(t1, t2): 
sum = Time() 
sum.hour = t1.hour + t2.hour 
sum.minute = t1.minute + t2.minute 
sum.second = t1.second + t2.second 


return sum 





这 个 函数 创建 一 个 新 的 Time 对 象 ， 初 始 化 它 的 属性 ， 并 返回 这 个 新 
对 象 的 一 个 引用 。 这 说 称 为 一 个 纯 函数 ， 因 为 它 除 了 返回 一 个 值 之 
外 ， 并 不 修改 作为 实 参 传 入 的 任何 对 象 ， 也 没有 任何 如 显示 值 或 获得 用 
户 输入 之 类 的 副作用 。 





为 了 测试 这 个 函数 ， 我 将 创建 两 个 Time 对 象 : start ， 存 放 一 个 电 
影 〈 如 Monty Python and the Holy Grail ) 的 开始 时 间 ; duration, 4 
放电 影 的 播放 时 间 ， 在 这 里 是 1 小 时 35 分 钟 。 


add_time 计算 出 电影 何 时 结 





>>> start = Time() 
>>> start.hour = 9 
>>> start.minute = 
>>> start.second = 


>>> duration = Time() 
>>> duration.hour = 1 
>>> duration.minute = 
>>> duration.second = 


>>> done = add_time(start, duration) 
>>> print_time(done) 
10:80:00 





结果 16:86:66 可 能 并 不 是 你 所 期 望 的 。 问 题 在 于 这 个 函数 并 没有 
处 理 好 秒 数 或 者 分 钟 数 超过 60 的 情况 。 当 此 发 生 时 ， 我 们 需要 将 多 余 的 
秒 数 “ 进 位 ”到 分 钟 数 ， 将 多 余 的 分 钟 数 “ 进 位 ”到 小 时 数 。 


下 面 是 一 个 改进 的 版 本 : 


def add time(t1, t2): 
sum = Time() 
sum.hour = t1.hour + t2.hour 
sum.minute = t1.minute + t2.minute 
sum. second t1.second + t2.second 


if sum.second >= 60: 
sum.second -= 60 
sum.minute += 1 


if sum.minute >= 60: 
sum.minute -= 60 
sum.hour += 1 


return sum 





里 然 这 个 函数 是 正确 的 ， 它 已 经 开始 变 大 了 。 我 们 会 在 后 面 看 到 一 
个 更 短 的 版 本 。 


16.3 ”修改 器 


有 了 时候 用 函数 修改 传 入 的 参数 对 象 是 很 有 用 的 。 在 这 种 情况 下 ， 修 
改 对 调用 者 是 可 见 的。 这 样 工作 的 函数 称 为 修改 项 (modifier〉。 


函数 increment 给 一 个 Time 对 象 增加 指定 的 秒 数 ， 可 以 目 然 地 写 
为 一 个 修改 器 。 下 面 是 一 个 初稿 : 
def increment(time, seconds): 

time.second += seconds 

if time.second >= 60: 


time.second -= 60 
time.minute += 1 


if time.minute >= 60: 
time.minute -= 60 
time.hour += 1 





一 行进 行 基础 操作 ， 后 面 的 代码 处 理 我 们 前 面 看 到 的 特殊 情况 


个 函数 正确 吗 ? 如 果 seconds 比 60 大 很 多 ， 会 发 生 什 么 ? 





在 那 种 情况 下 ， 只 进位 一 次 是 不 够 的 ; 我 们 需要 重复 进位 ， 
second 比 60 小 。 一 个 办 法 是 使 用 while 语句 蔡 代 if i 那 
样 会 让 函数 变 正 确 ， 但 并 不 很 高 效 。 作 为 练习 ， 编 写 正 确 的 increment 
Ag 并 不 包含 任何 循环 。 


任何 可 以 使 用 修改 器 做 到 的 功能 都 可 以 使 用 纯 函数 实现 。 事 实 上 ， 
有 的 编程 语言 只 人 允许 使 用 纯 函 数 。 有 证 据 表明 使 用 纯 函 数 的 程序 比 使 用 
修改 器 的 程序 开发 更 快 ， 错 误 更 少 。 但 有 了 时候 修 改 占 还 是 很 方便 的 ， 并 
且 函 数 式 程序 的 运行 效率 不 那么 高 











总 的 来 说 ， 我 推荐 你 只 要 合理 的 时 候 ， 都 尽量 编号 纯 函 数 ， 而 只 在 
有 绝对 说 服 力 的 原因 时 才 使 用 修改 占 。 这 种 方法 可 以 称 作 函 数 式 编程 风 
格 。 





作为 练习 ， 编 写 一 个 increment 的 纯 闵 数 版 本 ， 创 建 并 返回 一 个 新 
的 Time 对 象 ， 而 不 是 修改 参数 。 


16.4 ”原型 和 计划 





刚才 我 展示 的 开发 计划 称 为 "原型 和 补 本 ”。 对 每 个 函数 ， 我 编写 一 
个 可 以 进行 基本 计算 的 原型 ， 再 测试 它 ， 从 中 发 现 错误 并 打 补 丁 。 








这 种 方法 在 对 问题 的 理解 并 不 深入 时 尤其 有 效 。 但 增 量 地 修正 可 能 
会 导致 代码 过 度 复 淋 〈 因 为 它们 需要 处 理 很 多 特殊 情况 ) ， 并 且 也 不 够 
可 徘 〈( 因 为 很 难 知道 你 是 否 已 经 找到 了 所 有 错误 )。 


男 一 种 方法 是 有 规划 开发 (designed development) 。 对 问题 有 更 
高 阶 的 理解 能 够 让 编程 简单 得 多 。 在 上 面 的 问题 中 ， 如 果 更 深入 地 理 
解 ， 可 以 发 现 Time 对 象 实 际 上 是 六 十 进 制 数 里 的 3 位 数 〈 参 见 
http://en.wikipedia.org/wiki/Sexagesimal) ! second 属性 是 “个 位 
aX”, minute 属性 是 “60 位 数 ”"， 而 hour 属性 是 “360 位 数 ”。 








在 编写 add_time 和 increment 时 ， 我 们 实际 上 是 在 六 十 进 制 上 进 
行 加 减 ， 因 此 才 需 要 从 一 位 进位 到 另 一 位 。 


这 个 观察 让 我 们 可 以 考虑 整个 问题 的 另 一 种 解决 方法 一 一 我 们 可 以 
将 Time 对 象 转换 为 整数 ， 并 利用 计算 机 知道 如 何 做 整数 运算 的 事实 。 


下 面 是 一 个 将 Time 对 象 转换 为 整数 的 函数 : 


def time_to_int(time): 
minutes = time.hour * 60 + time.minute 
seconds = minutes * 60 + time.second 
return seconds 





而 下 面 是 一 个 将 整数 转换 回 Time 对 象 的 函数 〈 记 者 divmod 函数 将 
第 一 个 参数 除 以 第 二 个 参数 ， 并 以 元 组 的 形式 返回 丙 和 余数 ) : 


def int_to_time(seconds): 
time = Time() 
minutes, time.second = divmod(seconds, 60) 
time.hour, time.minute = divmod(minutes, 60) 
return time 





你 可 能 需要 思考 一 下 ， 并 运行 一 些 测试 ， 来 说 服 自己 这 些 函 数 是 正 
确 的 。 一 种 测试 它们 的 方法 是 对 很 多 x 值 检查 
time to int(int to time(x)) == x 。 这 是 一 致 性 检验 的 一 个 例 
TA 





一 旦 确认 它们 是 正确 的 ， 束 可 以 使 用 它们 重 写 add_time : 


def add time(t1, t2): 
seconds = time to int(t1) + time to int(t2) 
return int to time(seconds) 





这 个 版 本 比 最 初版 本 短 得 多 ， 并 且 也 很 容易 检验 。 作 为 练习 ， 使 
用 time to _int 和 int _to time #Sincrement 函数 。 


从 某 个 角度 看 ， 在 六 十 进 制 和 十 进 制 之 间 来 回转 换 比 只 处 理 时间 更 
难 。 进 制 转换 更 加 抽象 ， 我 们 对 时 间 值 的 直 党 更 好 。 


但 如 果 我 们 将 时 间 看 作 六 十 进 制 数 ， 并 做 好 了 编写 转换 函数 
(time_to_int 和 int to _ time ) 的 先期 投入 ， 就 能 得 到 一 个 更 短 ， 
更 可 读 ， 也 更 可 靠 的 函数 。 


它 也 让 我 们 今后 更 容易 添加 功能 。 例 如 ， 假 设 将 两 个 Time 对 象 相 减 
来 获得 它们 之 间 的 时 间 间 隔 。 简 单 的 做 法 是 使 用 借 位 实现 减法 。 而 使 用 
转换 函数 则 更 简单 ， 且 更 容易 正确 。 








讽刺 的 是 ， 有 时 候 把 一 个 问题 卉 得 更 难 〈 或 者 更 通用 ) 反而 会 让 它 
更 简单 《因为 会 有 更 少 的 特殊 情况 以 及 更 少 的 出 错 机 会 ) 。 


16.5 “调试 


一 个 Time 对 象 当 minute 和 second 的 值 在 0 到 60 之 间 (包含 0 但 不 包 
含 60) 以 及 hour 是 正 值 时 ， 是 合法 的 。hour 和 minute 应 当 是 整数 
值 ， 但 我 们 也 许 需 要 人 允许 second 拥有 小 数值 。 


这 些 需求 称 为 不 变 式 ， 因 为 它们 应 当 总 是 为 真 。 换 句 话 说 ， 如 果 
它们 不 为 真 ， 则 一 定 有 什么 地 方 出 错 了 。 





编写 代码 来 检 醋 不 变 式 可 以 帮 你 探测 错误 并 找寻 它们 的 根源 。 例 


如 ， 你 可 以 写 一 个 像 valid time 这 样 的 函数 ， 接 收 Time 对 象 ， 并 在 它 
违反 了 一 个 不 变 式 时 ， 返 回 False : 


def valid time(time): 
if time.hour < © or time.minute < © or time.second < 6: 
return False 
if time.minute >= 66 or time.second >= 60: 
return False 


return True 








Aa ERE TS BUF, WAS, HR ETE A: 


def add_time(t1, t2): 
if not valid_time(t1) or not valid_time(t2): 
raise ValueError('invalid Time object in add_time') 
seconds = time_to_int(t1) + time_to_int(t2) 
return int_to_time(seconds) 





或 者 可 以 使 用 一 个 assert 语句 。 它 会 检查 一 个 给 定 的 不 变 式 ， 并 
当 检 查 失 败 时 抛 出 异常 


def add_time(t1, t2): 
assert valid_time(t1) and valid_time(t2) 
seconds = time to int(t1) + time to int(t2) 
return int to time(seconds) 





assert 语句 很 有 用 ， 因 为 它们 区 分 了 人 处理 普 通 条 件 的 代码 和 检查 


错误 的 代码 。 
16.6 ÑEK 


原型 和 补丁 (prototype and patch) : 一 种 开发 计划 模式 ， 先 编写 程 
序 的 粗略 原型 ， 并 测试 ， 在 找到 错误 时 更 正 。 


有 规划 开发 (planned development) : 一 种 开发 计划 模式 ， 先 对 问 
题 有 了 高 阶 的 深入 理解 ， 并 且 比 增 量 开发 或 者 原型 开发 有 更 多 的 规划 。 





纯 函 数 (pure function) : 不 修改 任何 形 参 对 象 的 函数 。 大 部 分 纯 
函数 都 有 返回 值 。 


修改 器 (modifier) : 修改 一 个 或 多 个 形 参 对 象 的 函数 。 大 部 分 修 
改 磊 都 不 返回 值 ， 也 就 是 返回 None 。 


函数 式 编程 风格 (functional programming style) : 一 种 编程 设计 风 
格 ， 其 中 大 部 分 函数 都 是 纯 函 数 。 

不 变 式 (invariant) : 在 程序 的 执行 过 程 中 应 当 总 是 为 真 的 条 件 。 
assert 语句 (assert statement) : 一 种 检查 某 个 条 件 ， 如 果 检 查 失 
败 则 抛 出 异常 的 语句 。 

16.7 练习 


本 章 中 的 代码 示例 可 以 从 http://thinkpython2.com/code/Timel.py 下 
载 ， 这 些 练习 的 解答 可 以 从 http://thinkpython2.com/code/Timel_soln.py 下 


练习 16-1 


编写 一 个 函数 mul_time 接收 一 个 Time 对 象 以 及 一 个 整数 ， 返 回 一 
个 新 的 Time 对 象 ， 包 含 原始 时 间 和 整数 的 乘积 。 





然后 使 用 mul_time 来 编写 一 个 函数 ， 接 收 一 个 Time 对 象 表示 一 场 
赛车 的 结束 时 间 ， 以 及 一 个 表示 距离 的 数字 ， 并 返回 一 个 Time 对 象 表达 
平均 节奏 《每 英里 花费 的 时 间 ) 。 


练习 16-2 


datetime 模块 提供 了 time 对 象 ， 和 本 章 中 的 Time 对 象 类 似 ， 但 它 
们 提供 了 更 丰富 的 方法 和 操作 符 。 在 
http://docs.python.org/3/library/datetime. html |i] iZ4H KIC « 


1. 使 用 datetime 模块 来 编写 一 个 程序 获取 当前 日 期 并 打印 出 今天 
是 周 几 。 


2. 编写 一 个 程序 接收 生日 作为 输入 ， 并 打印 出 用 户 的 年 龄 ， 以 及 
到 他 们 下 一 次 生日 还 需要 的 天 数 、 小 时 数 、 分 钟 数 和 秒 数 。 











3. 对 于 生 于 不 同 天 的 两 个 人 ， 总 有 一 天 ， 一 个 人 的 年 龄 是 另 一 个 
人 的 两 倍 。 我 们 称 这 是 他 们 的 “ 双 倍 日 "。 编 写 一 个 程序 接收 两 个 生日 ， 
并 计算 出 它们 的 “ 双 倍 日 ”。 


4. 再 增加 一 点 挑战 ， 编 写 一 个 更 通用 的 版 本 ， 计 算 一 个 人 比 为 一 
个 人 大 n 倍 的 日 子 。 


解答 : http://thinkpython2.com/code/double.py。 


第 17 章 ”类 和 方法 





虽然 我 们 已 经 使 用 了 Python 的 一 些 面 癌 对 象 特性 ， 但 前 两 章 的 程序 
还 算 不 上 真正 的 面向 对 象 ， 因 为 它们 没有 体现 用 户 自 定义 类 型 之 间 的 关 
联 ， 以 及 操作 它们 的 函数 。 下 一 步 是 将 那些 函数 转换 成 方法 ， 让 这 种 关 
联 更 加 明显 。 





本 章 的 代码 示例 可 以 从 http://thinkpython2.com/code/Time2.py 下 载 ， 
而 本 间 练 习 的 解答 参见 http://thinkpython2.com/code/Point2_soln.py。 


17.1 ”面向 对 象 特性 





Python 是 一 门面 问 对 象 编程 语言 ， 它 提供 了 一 些 文 持 面 问 对象 编 
程 的 语言 特性 ， 这 些 特性 有 如 下 明确 的 特征 。 





。 程序 包括 类 定义 和 方法 定义 。 

。 大 部 分 计算 都 通过 对 象 的 操作 来 表达 。 

。 每 个 对 象 定 义 对 应 真实 世界 的 某 些 对 象 或 概念 ， 而 方法 则 对 应 真实 
世界 中 对 象 之 间 交 互 的 方式 。 











例如 ， 第 16 章 中 定义 的 Time 类 对 应 于 人 们 记录 一 天 中 的 时 间 的 方 
式 ， 而 其 中 我 们 定义 的 函数 对 应 于 人 们 平时 处 理 时 间 所 做 的 事情 。 类 似 
th, Point 和 Rectangle 类 对 应 于 数学 中 点 和 和 矩形 的 概念 。 


目前 为 止 ， 我 们 还 没有 利用 上 Python 所 提供 的 面向 对 象 编 程 特 性 。 





严格 地 说 ， 这 些 特性 并 不 是 必需 的 ; 它们 中 大 部 分 都 是 我 们 已 经 做 过 的 
事情 的 另 一 种 选择 方案 。 但 在 很 多 情况 下 ， 这 种 方案 更 简洁 ， 更 能 准确 
地 表达 程序 的 结构 。 








例如 ， 在 Time1.py 程序 中 ， 类 定义 和 接 大 的 函数 定义 并 没有 明显 
的 关联 。 稍 加 观察 ， 很 明显 每 个 函数 都 全 少 接收 一 个 Time 对 象 作 为 参 
数 。 





这 种 现象 就 是 方法 的 由 来 。 一 个 方法 即 是 和 某 个 特定 类 相关 联 的 
函数 。 我 们 已 经 见 过 字符 串 、 列 表 、 字 典 和 元 组 的 方法 。 本 章 中 ， 我 们 
会 为 用 户 定义 类 型 定义 方法 。 

方法 和 函数 在 语义 上 是 一 样 的 ， 但 在 语法 上 有 两 个 区 别 。 


。 方法 定义 写 在 类 定义 之 中 ， 更 明确 的 表示 类 和 方法 的 关联 。 
。 调用 方法 和 调用 函数 的 语法 形式 不 同 。 





在 接 下 来 几 市 中 ， 我 们 会 将 前 两 革 中 定义 的 函数 转换 为 方法 。 这 种 
转换 是 纯 机 械 式 的 ， 你 可 以 依照 一 系列 步骤 完成 它 。 如 果 你 能 够 轻松 地 
在 方法 和 函数 之 间 转 换 ， 也 就 能 够 在 任何 情况 下 选择 最 适合 的 形式 了 。 





17.2 打印 对 象 


在 第 16 章 中 ， 我 们 在 练习 16-1 中 定义 了 一 个 名 为 Time 的 类 ， 你 写 
过 一 个 名 为 print_time 的 函数 : 





class Time: 
'""Represents the time of day.""" 


def print_time(time): 
print('%.2d:%.2d:%.2d' % (time.hour, time.minute, time.second)) 





要 调用 这 个 函数 ， 需 要 传 入 一 个 Time 对 象 作 为 实 参 : 


>>> start = Time() 
>>> start.hour = 9 
>>> start.minute = 45 
>>> start.second = 00 
>>> print_time(start) 
09:45:00 





要 把 print_time 转换 为 方法 ， 我 们 只 需要 将 函数 定义 移动 到 类 定 
义 中 即 可 。 注 意 缩 进 的 改变 。 
class Time: 


def print_time(time): 
print('%.2d:%.2d:%.2d' % (time.hour, time.minute, time.second) ) 





现在 有 两 种 方式 可 以 调用 print_time 。 第 一 种 〈 更 少见 的 ) 方式 
是 使 用 函数 调用 语法 : 


>>> Time.print_time(start) 
69:45:00 





在 这 里 的 点 表示 法 中 ，Time 是 类 的 名 称 ， 而 print_time 是 方法 的 
名 称 。start 是 作为 参数 传 入 的 。 


A CREA) 方式 是 使 用 方法 调用 语法 : 


>>> start.print_time() 
69:45:00 





在 这 里 的 点 表示 法 中 ，print_time (又 一 次 ) 是 方法 的 名 称 ， 
而 start 是 调用 这 个 方法 的 对 象 ， 也 称 为 主体 Csubject) 。 和 一 句 话 中 
主语 用 来 表示 这 人 句 话 是 关于 什么 东西 的 一 样 ， 方 法 调用 的 主体 表示 这 个 
方法 是 关于 哪个 对 象 的 。 








在 方法 中 ， 主 体会 被 赋值 给 第 一 个 形 参 ， 所 以 本 例 中 start 被 赋值 


给 time 。 


依 惯例 来 ， 方 法 的 第 一 个 形 参 通常 叫 作 self ， 所 以 print_time i 
常 写 成 这 样 的 形式 : 


class Time: 
def print_time(self): 
print('%.2d:%.2d:%.2d' % (self.hour, self.minute, self.second) ) 





这 种 惯例 的 原因 是 一 个 隐喻。 


函数 调用 的 语法 print a 暗示 函数 是 活动 主体 。 它 念 
佛 在 说 :“ 喂 ，print_time ! 这 里 是 一 个 让 你 打印 的 对 象 。” 
。 在 面向 对 象 编程 中 ， 对 象 是 活动 主体 。 类 似 start.print_time() 
的 方法 调用 相当 于 说 :“ 喂 ，start ! 请 打印 你 自己 。” 














这 种 视角 的 改变 可 能 变 得 更 礼貌 ， 但 是 否 也 更 有 用 这 一 点 却 不 那么 
明显 。 在 我 们 已 经 见 过 的 例子 中 ， 它 也 许 并 没有 更 有 用 。 但 有 时 候 将 函 
数 的 贡 任 转 到 对 象 上 ， 使 我 们 能 够 编写 功能 更 丰富 的 函数 (或 方法 ) ， 
也 使 代码 的 维护 和 复 用 更 容易 。 


作为 练习 ， 将 16.4 节 中 的 函数 time to int 重 写 为 方法 。 Ce 
会 想 将 int_to time 重 写 为 方法 ， 但 这 么 做 实际 上 没有 什么 意义 ， 
为 你 找 不 到 可 以 调用 它 的 对 象 。 


17.3 “” 另 一 个 示例 


下 面 是 函数 increment (参见 16.3 节 ) 的 另 一 个 重 写 成 了 方法 的 版 
本 : 


# inside class Time: 


def increment(self, seconds): 
seconds += self.time_to_int() 


return int_to_time(seconds) 





这 个 版 本 假设 time to int 已 经 写成 了 方法 。 另 外 ， 注 意 它 是 一 


个 纯 函数 ， 而 不 是 一 个 修改 絮 。 


下 面 是 调用 increment 的 方式 : 


>>> start.print_time() 

69:45:00 

>>> end = start.increment(1337) 
>>> end. print_time() 


10:07:17 





主体 start 赋值 给 第 一 个 形 参 self ， 实 参 1337 ， 赋 值 给 第 二 个 形 


参 seconds 。 


这 种 机 制 有 时 也 会 带 来 困惑 ， 尤 其 在 当 程 序 出 错 的 时 候 。 例 如 ， 如 
果 使 用 两 个 实 参 调 用 increment ， 则 会 得 到 : 


>>> end = start.increment(1337, 460) 
TypeError: increment() takes 2 positional arguments but 3 were given 











错误 信息 初 看 起 来 似乎 很 令 人 困惑 ， 因 为 括号 里 只 有 两 个 实 参 。 但 
调用 的 主体 也 被 看 作 一 个 实 参 ， 所 以 其 实 总 共有 3 个 。 








另外 ， 按 位 实 参 (positional argument) 指 的 是 没有 指定 名 称 的 实 
参 ， 也 就 是 说 ， 它 不 是 一 个 关键 词 实 参 。 在 下 面 这 个 函数 调用 
H, parrot 和 cage 是 按 位 实 参 ， 而 dead 是 一 个 关键 词 实 参 : 


sketch(parrot, cage, dead=True) 


17.4 ”一 个 更 复杂 的 示例 


函数 is_after 〈 见 16.1 节 ) 稍微 更 复杂 一 些 ， 因 为 它 接收 两 
这 种 情形 下 ， 依 惯例 ， 第 一 个 形 参 命名 为 self 
， 而 第 二 个 形 参 命 名 为 other : 


# inside class Time: 


def is_after(self, other): 
return self.time_to_int() > other.time_to_int() 





要 使 用 这 个 方法 ， 需 要 在 一 个 对 象 上 调用 它 ， 并 传 入 另 一 个 对 象 作 


>>> end.is_after(start) 
True 





这 种 语法 的 一 个 好 处 是 ， 阅 读 起 来 几乎 和 英语 一 样 :“end is after 


start?”。 


17.5 init 方法 








init 方法 〈 即 “initialization 的 简写 ， 意 思 是 初始 化 ) 是 一 个 特殊 
方法 ， 当 对 象 初始 化 时 会 被 调用 。 它 的 全 名 是 _ init  “〔 两 个 下 划 
线 ， 接 着 是 init ， 再 接着 两 个 下 划 线 ) 。Time 类 的 init 方法 可 能 如 
下 所 示 : 


# inside class Time: 


def _ init__(self, hour=0, minute=@, second=0): 
self.hour = hour 
self.minute = minute 
self.second = second 








_init__ 的 形 参 和 类 的 属性 名 称 常 常 是 相同 的 。 语 句 


self.hour = hour 


将 形 参 hour 的 值 存储 为 self 的 一 个 属性 。 


形 参 是 可 选 的 ， 所 以 当 你 不 使 用 任何 实 参 调 用 Time 时 ， 会 得 到 默 
认 值 : 
>>> time = Time() 


>>> time.print_time() 
00:00:00 





如 果 提 供 1 个 实 参 ， 它 会 履 新 hour : 


>>> time = Time (9) 
>>> time.print_time() 
69:00:00 





如 果 提 供 2 个 实 参 ， 它 会 覆盖 hour 和 minute : 


>>> time = Time (9，45) 
>>> time.print_time() 
69:45:00 





如 果 提 供 3 个 实 参 ， 它 们 会 覆盖 全 部 3 个 默认 值 。 


作为 练习 ， 为 Point 类 编写 一 个 init 方法 ， 接 收 x 和 y 作为 可 选 形 
参 ， 并 将 它们 的 值 赋 到 对 应 的 属性 上 。 


17.6 str 方法 


_str _ 和 _init _ 类 似 ， 是 一 个 特殊 方法 ， 它 用 来 返回 对 象 的 
字符 串 表 达 形 式 。 


例如 ， 下 面 是 一 个 Time 对 象 的 str 方法 : 





# inside class Time: 


def _str (self): 


return '%.2d:%.2d:%.2d' % (self.hour, self.minute, self.second) 





当 你 打印 对 象 时 ，Python 会 调用 str 方法 。 


>>> time = Time(9, 45) 
>>> print(time) 
69:45:00 








当 我 编写 一 个 新 类 时 ， 我 总 是 开始 先 写 init__， 以 便 初 始 化 对 


象 ， 然 后 会 写 str ”， 以 便 调试 。 
作为 练习 ， 为 Point 类 编写 一 个 str 方法 。 创 建 一 个 Point 对 象 并 打 

印 它 。 

17.7 HEFER 


通过 定义 其 他 的 特殊 方法 ， 你 可 以 为 用 户 定 义 类 型 的 各 种 操作 符 指 
定 行为 。 例 如 ， 如 果 你 为 Time 类 定义 一 个 _add _ 方法 ， 则 可 以 在 
Time 对 象 上 使 用 + 操作 符 。 


下 面 是 这 个 方法 的 定义 : 





# inside class Time: 


def _add (self, other): 
seconds = self.time to int() + other.time to int() 
return int to time(seconds) 


而 下 面 是 如 何 使 用 它 : 


>>> start = Time(9, 45) 

>>> duration = Time(1, 35) 
>>> print(start + duration) 
11:20:00 





当 你 对 Time 对 象 应 用 + 操作 符 时 ，Python 会 调用 _add_。 
印 结果 时 ，Python 会 调用 _str  。 闫 后 其 实 有 友 生 了 很 多 事情 ! 


当 你 打 


修改 操作 符 的 行为 以 便 它 能 够 作用 于 用 户 定 义 类 型 ， 这 个 过 程 称 为 
操作 符 重 载 。 对 每 一 个 操作 符 ，Python 都 提供 了 一 个 对 应 的 特殊 方法 ， 
如 _add__ 。 更 多 细节 ， 可 以 参见 
http://docs.python.org/3/reference/datamodel.html#specialnames。 


作为 练习 ， 为 Point 类 编写 一 个 add 方法 。 
17.8 #272 hae 


在 前 面 一 节 中 我 们 将 两 个 Time 对 象 相 加 ， 但 你 也 可 能 会 想 要 将 一 个 
Time 对 象 加 上 一 个 整数 。 接 下 来 是 _add _ 的 一 个 版 本 ， 检 查 other 的 
类 型 ， 并 调用 add_time 或 increment : 


# inside class Time: 


def _add (self, other): 
if isinstance(other, Time): 
return self.add_time(other) 
else: 
return self.increment (other ) 


def add_time(self, other): 
seconds = self.time_to_int() + other.time_to_int() 
return int_to_time(seconds) 


def increment(self, seconds): 
seconds += self.time_to_int() 
return int_to_time(seconds) 





内 置 函数 ijsinstance 接收 一 个 值 与 一 个 类 对 象 ， 并 当 此 值 是 此 类 
的 一 个 实例 时 返回 True 。 


如 果 other 是 一 个 Time 对 象 ， add _ 会 调用 add_time 。 否 则 它 
认为 实 参 是 整数 ， 并 调用 increment 。 这 个 操作 称 为 基于 类 型 的 分 发 
(type-based dispatch) ， 因 为 它 根 据 形 参 的 类 型 ， 将 计算 分 发 到 不 同 的 
P Ee 


下 面 是 使 用 不 同类 型 的 实 参 调用 + 操作 符 的 示例 : 


>>> start = Time(9，45) 

>>> duration = Time(1, 35) 
>>> print(start + duration) 
11:20:00 

>>> print(start + 1337) 


10:07:17 





遗憾 的 是 ， 这 个 加 法 的 实现 并 不 满足 交换 律 。 如 果 整 数 是 第 一 个 操 
作 数 ， 则 会 得 到 : 


>>> print(1337 + start) 
TypeError: unsupported operand type(s) for +: ‘int' and ‘instance’ 





问题 在 于 ， 这 里 和 之 前 询问 一 个 Time 对 象 加 上 一 个 整数 不 同 ， 
Python 在 询问 一 个 整数 去 加 上 一 个 Time 对 象 ， 而 它 并 不 知道 如 何 去 做 
到 。 但 这 个 问题 也 有 一 个 聪明 的 解决 方案 : 特别 方法 _radd ， 意 
即 “ 右 加 法 ”(right-side add) 。 当 Time 对 象 出 现在 + 号 的 右 侧 时 ， 会 调 
用 这 个 方法 。 下 面 是 它 的 定义 : 


# inside class Time: 


def _radd (self, other): 
return self. add (other) 





而 下 面 是 如 何 使 用 : 


>>> print(1337 + start) 
10:07:17 





作为 练习 ， 为 Point 类 编写 一 个 add 方法 ， 可 以 接收 一 个 Point 对 象 或 
a mis 


。 如 果 第 二 个 操作 对 象 是 一 个 Point 对 象 ， 则 方法 应 该 返回 一 个 新 的 
Point 对 象 ， 其 x 坐标 是 两 个 操作 对 象 的 x 坐标 的 和 ，y 坐标 也 是 类 
似 。 

。 如 果 第 二 个 操作 对 象 是 一 个 元 组 ， 方 法 则 将 第 一 个 元 素 和 x 坐标 相 
加 ， 将 第 二 个 元 素 和 y 坐标 相 加 ， 并 返回 一 个 包含 相 加 结果 的 新 
Point 对 象 。 


17.9 多 态 
当 需 要 时 ， 基 于 类 型 的 分 发 很 有 用 ， 但 (幸运 的 是 ) 我 们 并 不 总 是 
需要 它 。 通 常 可 以 编写 函数 处 理 不 同类 型 的 参数 来 避免 它 。 


我 们 编写 的 很 多 处 理 字符 串 的 函数 ， 实 际 上 对 其 他 序列 类 型 也 可 以 
用 。 例 如 ， 在 11.1 节 中 ， 我 们 使 用 histogram 来 记录 单词 中 每 个 字母 出 
现 的 次 数 : 








def histogram(s): 
d = dict() 
for c ins: 
if c not in d: 
d[c] =1 
else: 


d[c] = d[c]+1 
return d 








这 个 函数 对 列表 、 元 组 甚至 是 字典 都 可 用 ， 只 要 s 的 元 系 是 可 散 列 
的 ， 因 而 可 以 用 作 d 的 键 即 可 : 


>>> t = ['spam', ‘egg', ‘'spam', ‘spam', 'bacon', 'spam'] 


>>> histogram(t) 
{'bacon': 1, 'egg': 1, 'spam': 4} 





处 理 多 个 类 型 的 函数 称 为 多 态 〈polymorphic) 。 多 态 可 以 促进 代 
码 复 用 。 例 如 ， 用 来 计算 一 个 序列 所 有 元 素 的 和 的 内 置 函 数 sum ， 对 所 
有 其 元 素 文 持 加 法 的 序列 都 可 用 。 


由 于 Time 对 象 提 供 了 add 方法 ， 它 们 也 可 以 使 用 sum : 


>>> t1 = Time(7, 43) 

>>> t2 = Time(7, 41) 

>>> t3 = Time(7, 37) 

>>> total = sum([t1, t2, t3]) 
>>> print (total) 


23:01:00 





忆 的 来 说 ， 如 果 函 数 内 部 所 有 的 操作 都 支持 茶 种 类 型 ， 那 么 这 个 隙 
数 就 可 以 用 于 那 种 类 型 。 





当 你 发 现 一 个 写 好 的 函数 ， 鞠 然 有 出 人 意料 的 效果 ， 可 以 用 于 没有 
计划 过 的 类 型 时 ， 这 才 是 最 好 的 多 态 。 








17.10 ”接口 和 实现 





面 问 对 象 设计 的 目标 之 一 是 提高 软件 的 可 维护 性 ， 也 惑 是 说 ， 当 系 





统 的 其 他 部 分 改变 时 ， 程 序 还 能 够 保持 正确 运行 ， 并 且 能 够 修改 程序 来 
适应 新 的 需求 。 


将 接口 和 实现 分 离 的 设计 理念 ， 可 以 帮 有 我们 更 容易 达到 这 个 目标 。 
对 于 对 象 来 说 ， 那 意味 着 类 所 提供 的 方法 应 该 不 依赖 于 其 属性 的 表达 方 
式 。 


例如 ， 在 本 章 中 我 们 开发 了 一 个 类 来 表示 一 天 中 的 时 间 。 这 个 类 提 
供 的 方法 包括 time to_int 、is _ after 和 add time 。 








我 们 可 以 使 用 几 种 不 同 的 方式 来 实现 这 些 方法 。 实 现 的 细节 依赖 于 
我 们 表达 时 间 概 念 的 方式 。 在 本 章 中 ，Time 对 象 的 属性 是 hour 


~ minute 和 second 。 

用 另 一 种 方案 ， 我 们 可 以 将 这 些 属性 奉 换 成 一 个 整数 ， 表 示 从 凌晨 
开始 到 现在 的 秒 数 。 这 种 实现 可 能 会 让 一 些 方法 ， 如 is after, BA 
易 实 现 ， 但 也 会 让 另 一 些 方法 更 难 实现 。 

在 部 署 一 个 新 类 时 ， 你 可 能 会 发 现 更 好 的 实现 。 如 果 程 序 中 其 他 部 
分 用 到 你 的 类 ， 则 修改 接口 会 非常 消耗 时 间 ， 并 且 容 易 产 生 错 误 。 


但 是 ， 如 果 很 谨慎 小 心地 设计 接口 ， 则 可 以 在 不 修改 接口 的 情况 下 
修改 实现 ， 这 样 程序 的 其 他 部 分 束 不 需要 跟 看 修改 。 





17.11 调试 


在 程序 运行 的 任何 时 刻 ， 往 对 象 上 添加 属性 都 是 合法 的 ， 但 如 果 遵 


守 更 严格 的 类 型 理论 ， 让 对 象 拥有 相同 的 类 型 却 有 不 同 的 属性 组 ， 会 很 
容易 导致 错误 。 通 常 来 说 ， 在 init 方法 中 初始 化 对 象 的 全 部 属性 是 个 
好 习惯 。 





如 果 并 不 清楚 一 个 对 象 是 否 拥有 某 个 属性 ， 可 以 使 用 内 置 函 
数 hasattr (参见 15.7 节 ) 。 


另 一 种 访问 一 个 对 象 的 属性 的 方法 是 使 用 内 置 函 数 vars ， 它 接收 
一 个 对 象 ， 并 返回 一 个 将 属性 名 称 〈 字 符 串 形式 ) 映射 到 属性 值 的 字典 
对 象 : 


>>> p = Point(3, 4) 
>>> vars(p) 
{'y': 4, 'x': 3} 





为 了 调试 ， 你 可 能 会 发 现 将 这 个 函数 放 在 手边 是 很 有 用 的 : 


def print_attributes(obj): 
for attr in vars(obj): 
print (attr, getattr(obj, attr)) 





print_attributes 过 有 历 对 象 的 属性 字典 ， 并 打印 出 每 个 属性 的 名 
称 和 相应 的 值 。 


内 置 函数 getattr 接收 一 个 对 象 以 及 一 个 属性 名 称 字符 串 形式 ) 
并 返回 属性 的 值 。 


17.12 术语 表 


面向 对 象 语言 (object-oriented language) : 一 种 提供 诸如 用 户 定义 
类 型 和 方法 之 类 的 语言 特性 ， 以 方便 面向 对 象 编程 的 语言 。 





面向 对 象 编程 (object-oriented programming) : 一 种 编程 风格 ， 数 
据 和 修改 数据 的 操作 组 织 成 类 和 方法 的 形式 。 





方法 (method) : 在 类 定义 之 内 定义 的 函数 ， 在 类 的 实例 上 调 
用 。 





主体 (subject) : 调用 方法 所 在 的 对 象 。 


按 位 实 参 (positional argument) : 一 个 不 包含 参数 名 字 的 实 参 ， 
所 以 它 不 是 一 个 关键 词 实 参 。 


操作 符 重 载 (operator overloading) : 修改 一 个 类 似 + 号 这 样 的 操作 
符 的 行为 ， 使 之 可 以 用 于 用 户 定义 类 型 。 

基于 类 型 的 分 发 〈type-based dispatch) : 一 种 编程 模式 ， 检 查 操 作 
对 象 的 类 型 ， 并 对 不 同类 型 调用 不 同 的 函数 。 

多 态 (polymorphic) : 子 数 的 一 种 属性 ， 可 以 处 理 多 种 类 型 的 参 
数 。 


a Bete (information hiding) : 对 象 提供 的 接口 不 应 当 依 赖 于 其 
实现 ， 特 别 是 其 属性 的 表达 形式 的 原则 。 


17.13 练习 


练习 17-1 


从 http://thinkpython2.com/code/Time2.py 下 载 本 章 的 代码 。 将 Time 
的 属性 改 为 从 凌晨 开始 到 现在 的 秒 数 。 接 着 修改 方法 (以 及 函数 
int_to_time) ， 以 适应 新 的 属性 实现 。 你 应 该 不 需要 修改 main 里 面 
的 测试 代码 。 当 你 做 完 之 后 ， 输 出 应 该 和 以 前 一 样 。 


解答 : http://thinkpython2.com/code/Time2_soln.py 


练习 17-2 








这 个 练习 提醒 你 关于 Python 的 一 种 最 常见 且 最 难 碍 找 的 错误 的 故 


编写 一 个 叫 作 Kangaroo (ReO 的 类 ， 有 如 下 方法 。 


1. 一 个 _init _ 方法 ， 将 属性 pouch_contents (口袋 中 的 东 
西 ) 初始 化 为 一 个 空 列表 。 


2. 一 个 put_in_pouch 方法 ， 接 收 任何 类 型 的 对 象 ， 并 将 它 添 加 
到 pouch_contents 中 。 


3. 一 个 _str 方法， 返回 Kangaroo 对 象 以 及 口袋 中 的 内 容 的 字 
符 串 表达 形式 。 


创建 两 个 Kangaroo 对 象 ， 将 它们 赋值 到 变量 kanga 和 roo ， 并 


将 roo 添加 到 kanga 的 口袋 中 。 


下 载 http://thinkpython.com/code/BadKangaroo.py， 它 包含 了 前 面 问 
题 的 解答 ， 但 里 面 有 一 个 很 大 很 丑陋 的 bug。 找 出 并 修复 这 个 bug。 








如 果 你 遇 到 阻碍 ， 可 以 下 载 
http://thinkpython.com/code/GoodKangaroo.py， 它 解释 了 问题 的 原因 ， 并 
提供 了 一 个 解决 方案 。 


第 18 音 ”继承 














和 面 辐 对 象 编程 最 党 相关 的 语言 特性 束 是 继承 (inheritance ) 。 继 
承 指 的 是 根据 一 个 现 有 的 类 型 ， 定 义 一 个 修改 版 本 的 新 类 的 能 力 。 本 章 
中 我 会 使 用 几 个 类 来 表达 扑克 脾 、 有 牌 组 以 及 扑克 牌 型 ， 用 于 展示 继承 特 
PE 








如 果 你 不 玩 扑 克 ， 可 以 在 http://en.wikipedia.org/wiki/Poker 里 阅读 相 
关 介 绍 ， 但 其 实 并 不 必要 ; 我 会 在 书 中 介绍 练习 中 所 需 知 道 的 东西 。 


本 章 的 代码 示例 可 以 从 http://thinkpython2.com/code/Card.py 下 载 。 


18.1 卡片 对 象 


一 副 牌 里 有 52 张 牌 ， 共 有 4 个 花色 ， 每 种 花色 13 张 ， 大 小 各 不 相 
同 。 花 色 有 黑 桃 (Spade) 、 红 桃 (Heart) 、 方 片 (Diamond) 和 草花 
(Club) 《在 桥牌 中 ， 这 几 个 花色 是 降序 排列 的 ) 。 每 种 花色 的 13 张 牌 
分 别 为 : Ace、2、3、4、5、6、7、8、9、10、Jack、Queen 和 King。 根 
据 你 玩 的 不 同 游 戏 ，Ace 可 能 比 King 大 ， 也 可 能 比 2 小 。 











如 果 我 们 定义 一 个 新 对 象 来 表示 卡 牌 ， 则 其 属性 显然 应 该 是 rank 
(大 小 ) 和 suit EE) 。 但 属性 的 值 就 不 那么 直观 了 。 一 种 可 能 是 
使 用 字符 串 ， 例 如 ， 用 'Spade' 表示 花色 ， 用 'Queen' 表示 大 小 。 这 种 
实现 的 问题 之 一 是 比较 大 小 和 花色 的 高 低 时 会 比较 困难 。 


另 一 种 方案 是 使 用 整数 来 给 大 小 和 花色 编码 。 在 这 个 语 境 中 ,“ 编 
码 ” 意 味 着 我 们 要 定义 一 个 数字 到 人 花色， 或 者 数字 到 大 小 的 映射 。 这 种 
编码 并 不 意味 着 它 是 秘密 《那样 就 应 该 称 为 “加密 > 了 ) 。 








例如 ， 下 表 展 示 了 花色 和 对 应 的 整数 编码 : 





这 个 编码 令 我 们 可 以 很 容易 地 比较 卡 牌 ， 因 为 更 大 的 花色 映射 到 更 
大 的 数字 上 ， 我 们 可 以 直接 使 用 编码 来 比较 花色 。 





卡 牌 大 小 的 映射 相当 明显 ; 每 个 数字 形式 的 大 小 映射 到 相应 的 整数 
上 ， 而 对 于 人 花 牌 : 








我 使 用 "一 ”符号 ， 是 为 了 说 明 这 些 映 射 并 不 是 Python 程序 的 一 部 
分 。 它 们 是 程序 设计 的 一 部 分 ， 但 并 不 在 代码 中 直接 表现 。 


Card 类 的 定义 如 下 : 


class Card: 


"""Represents a standard playing card.""" 


def init _(self, suit=0, rank=2): 
self.suit suit 
self.rank 


rank 








和 前 面 一 样 ，init 方法 对 每 个 属性 定义 一 个 可 选 形 参 。 默 认 的 卡 
脾 是 草花 2。 


要 创建 一 个 Card 对 象 ， 使 用 你 想 要 的 花色 和 大 小 调用 Card : 


queen_of_diamonds = Card(1, 12) 





18.2 类 属性 


为 了 能 将 Card 对 象 打印 成 人 们 容易 阅读 的 格式 ， 我 们 需要 将 整数 编 
码 映 射 成 对 应 的 大 小 和 花色 。 目 然 的 做 法 是 使 用 字符 串 列 表 。 我 们 将 这 
些 列表 赋 到 类 属性 上 : 























# 在 Card 类 里 : 
suit names = ['Clubs', 'Diamonds', 'Hearts', 'Spades'] 
rank_names = [None, 'Ace', ‘'2', '3', ‘'4', '5', '6', '7', 


'8', '9', '10', 'Jack', 'Queen', "King ] 


def _ _str_ (self): 
return '%s of %s' % (Card.rank_names[self.rank], 
Card. suit_names[self.suit]) 
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suit_names 和 rank_names 这 样 的 变量 ， 定 义 在 类 之 中 ， 但 在 任 
何方 法 之 外 ， 我 们 称 为 类 属性 。 因 为 它们 是 和 类 对 象 Card 相关 联 的 。 








这 个 术语 和 suit 与 rank 之 类 的 变量 相 区 别 。 那 些 称 为 实例 属性 
， 因 为 它们 是 和 一 个 特定 的 实例 相关 联 的 。 


两 种 属性 都 使 用 句点 表示 法 访问 。 例 如 ， 在 _str F, self & 
一 个 Card 对 象 ， 而 self.rank 是 它 的 大 小 。 相 似 地 ，Card 是 一 个 类 对 
象 ， 而 Card.rank_names 是 关联 到 这 个 类 的 一 个 字符 串 列表 。 





每 个 卡片 都 有 它 自己 的 suit 和 rank ， 但 总 共 只 有 一 


个 suit_names 和 rank_names 。 


综合 起 来 ， 表 达 式 Card.rank_names[self.rank] 意思 是 “使 用 对 
象 self 的 属性 rank 作为 索引 ， 从 类 Card 的 列表 rank_names 中 选择 对 
应 的 字符 串 ”。 





rank_names 的 第 一 个 元 素 是 None ， 因 为 没有 大 小 为 0 的 卡 牌 。 
为 使 用 None 占据 了 一 个 位 置 ， 我 们 就 可 以 得 到 从 下 标 2 到 字符 串 '2' 这 
样 整 齐 的 映射 。 如 果 要 避免 这 种 操作 ， 可 以 使 用 字典 而 不 是 列表 。 


利用 现 有 的 方法 ， 可 以 创建 并 打印 卡 牌 : 





>>> card1 = Card(2, 11) 
>>> print(card1) 
Jack of Hearts 


PO 


图 18-1 展 示 了 Card 类 对 象 和 一 个 Card 实 例 。Card 是 一 个 类 对 象 ， 
所 以 它 的 类 型 是 type 。card1 的 类 型 是 Card 。 为 了 节省 空间 ， 我 没有 
画 出 suit_names 和 rank_names 的 内 容 。 


type list 
Card Suit_names 


rank _names 





Card 
card1 Suit —~> 1 


rank —~> 11 





图 18-1 对 象 图 
18.3 对比 卡 牌 


对 于 内 置 类 型 ， 我 们 用 比较 操作 符 (< 、> 、== SE) 来 比较 对 象 并 


决定 哪 一 个 更 大 、 更 小 或 者 相等 。 对 于 用 户 定 义 类 型 ， 我 们 可 以 通过 提 
供 一 个 方法 _1lt ， 代 表 “]ess than”, 来 重 载 内 置 操作 符 的 行为 。 


_1t _ 接收 两 个 形 参 ，self 和 other ， 当 第 一 个 对 象 严格 小 于 第 
二 个 对 象 时 返回 True 。 


卡 牌 的 正确 顺序 并 不 显而易见 。 例 如 ， 草 伦 3 和 方 片 2 哪个 更 大 ? 一 
个 牌 面 数 大 ， 另 一 个 花色 大 。 为 了 比较 卡 牌 ， 需 要 决定 大 小 和 人 花色 哪个 
更 重要 。 


这 个 问题 的 答案 取决 于 你 在 玩 哪 种 牌 类 游戏 ， 但 为 了 简单 起 见 ， 我 
们 随意 做 一 个 决定 ， 认 为 花色 更 重要 ， 于是， 所 有 的 黑 桃 比 所 有 的 方 厂 
都 大 ， 依 此 类 推 。 





这 一 点 决定 后 ， 我 们 残 可 以 编写 _1t 函数: 


# 在 Card 类 里 : 


def _ _lt_ _(self, other): 
# 检查 花色 
if self.suit < other.suit: return True 
if self.suit > other.suit: return False 


# 人 花色 相同 ， 检 查 大 小 


return self.rank < other .rank 





使 用 元 组 比较 ， 可 以 写 得 更 紧凑 : 














# 在 Card 类 里 : 








def _ _lt_ _(self, other): 


t1 = self.suit, self.rank 
t2 = other.suit, other.rank 
return t1 < t2 








作为 练习 ， 为 时 间 对 象 编写 一 个 _1t 方法。 你 可 以 使 用 元 组 比 
较 ， 也 可 以 考虑 使 用 整数 比较 。 


18.4 hH 


现在 我 们 已 经 有 了 卡 牌 (card) ， 下 一 步 就 是 定义 牌 组 (deck) 。 
由 于 牌 组 是 由 卡 牌 组 成 的 ， 很 自然 地 ， 每 个 Deck 对 象 应 该 有 一 个 属性 包 
SFERIK o 


下 面 是 Deck 的 类 定义 。init 方法 创建 cards 属性 ， 并 生成 52 张 牌 
的 标准 牌 组 : 


class Deck: 


def _ _init_ _(self): 
self.cards = [] 
for suit in range(4): 
for rank in range(1, 14): 


card = Card(suit, rank) 
self.cards.append(card) 
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小 创建 一 个 新 的 Card 对 象 ， 并 将 它 添加 到 self.cards 中 。 


18.5 打印 牌 组 


下 面 是 Deck 的 一 个 、_str_ ”方法 : 


# 在 Deck 类 里 : 


def _str (self): 
res=[] 
for card in self.cards: 
res.append(str(card)) 
return '\n'.join(res) 





这 个 方法 展示 了 一 种 累积 构建 大 字符 串 的 方法 先 构 建 一 个 字符 串 
的 列表 ， 再 使 用 字符 串 方 法 join 。 内 置 函 数 str 会 对 每 个 卡 牌 对 象 调 
用 _str_ 方法 并 返回 字符 串 表达 形式 。 





由 于 我 们 对 一 个 换行 符 调 用 join 函数 ， 卡 片 之 间 用 换行 分 阳 。 下 
面 是 打印 的 结果 : 





>>> deck = Deck() 
>>> print(deck) 
Ace of Clubs 

2 of Clubs 

3 of Clubs 


16 of Spades 
Jack of Spades 
Queen of Spades 
King of Spades 


pT 


虽然 结果 显示 了 52 行 ， 它 仍然 是 一 个 包含 换行 符 的 字符 串 。 
18.6 D, WIR, RAHET 


为 了 能 够 发 牌 ， 我 们 需要 一 个 方法 从 有 牌 组 中 抽取 一 张 牧 并 返回 。 列 
表 方 法 pop 为 此 提供 了 一 个 方便 的 功能 : 


# 在 Deck 类 里 : 


def pop_card(self): 
return self.cards.pop() 





由 于 pop 从 列表 中 抽出 最 后 一 张 牌 ， 我 们 其 实 是 从 牌 组 的 底 端 发 牌 
的 。 


要 添加 一 个 卡 牌 ， 我 们 可 以 使 用 列表 方法 append : 
# 在 Deck 类 里 : 


def add_card(self, card): 
self.cards.append(card) 





像 这 样 调用 力 一 个 方法 ， 却 不 做 其 他 更 多 工作 的 方法 ， 有 时 候 称 为 
一 个 饰 面 (veneer) 。 这 个 比喻 来 自 于 木工 行业 ， 在 木工 行业 中 饰 面 是 


为 了 改善 外 观 而 烙 贴 到 便宜 的 木料 表面 的 薄 薄 的 一 层 优质 木料 。 


在 这 个 例子 里 ，add_card 是 一 个 “ 注 注 ”的 方法 ， 用 更 适合 牌 组 的 
术语 来 表达 一 个 列表 操作 。 它 改善 了 实现 的 外 观 〈 或 接口 ) 。 


作为 另 一 个 示例 ， 我 们 可 以 使 用 random 模块 的 函数 shuffle 来 编 
写 一 个 Deck 方 法 shuffle 〈 洗 牌 ) : 


# 在 Deck 类 里 : 


def shuffle(self): 
random. shuffle(self.cards) 





不 要 忘记 导入 random 模块 。 


作为 练习 ， 编 写 一 个 Deck 方 法 sort ， 使 用 列表 方法 sort 来 对 一 
个 Deck 中 的 卡 牌 进行 排序 。sort 使 用 我 们 定义 的 _1t ”方法 来 决定 
顺序 。 


18.7 继承 


继承 是 一 种 能 够 定义 一 个 新 类 对 现 有 的 某 个 类 稍 作 修改 的 语言 特 
性 。 作 为 示例 ， 假 设 我 们 想 要 一 个 类 来 表达 一 副 “ 手 牌 ”， 即 玩家 手 握 的 
一 副 牌 。 一 副手 牌 和 一 套 牌 组 相似 : 都 是 由 卡 牌 的 集合 组 成 ， 并 且 都 需 
要 诸如 增加 和 移 除 卡 牌 的 操作 。 








一 副手 牌 和 一 套 牌 组 也 有 区 别 ， 我 们 期 望 手 牌 拥 有 的 一 些 操作 ， 对 


牌 组 来 说 并 无 意义 。 例 如 ， 在 扑 殉 牌 中 ， 我 们 可 能 想 要 比较 两 副手 牌 来 
判断 谁 获胜 了 。 在 桥牌 中 ， 我 们 可 能 需要 为 一 副手 牌 计算 分 数 以 叫 牌 。 








这 种 类 之 间 的 关系 一 一 相似 ， 但 不 相同 一 一 让 它 成 为 继承 。 要 定义 
一 个 继承 现 有 类 的 新 类 ， 可 以 把 现 有 类 的 名 称 放 在 括号 之 中 : 


class Hand(Deck): 
"""Represents a hand of playing cards.""" 





这 个 定义 说 明 Hand 从 Deck 继承 而 来 ;这 意味 痢 我 们 可 以 像 Deck 对 
象 那 样 在 Hand 对 象 上 使 用 pop_card 和 add_card 方法 。 


当 新 类 继承 现 有 类 时 ， 现 有 的 类 被 称 为 父 类 (parent) ， 而 新 类 则 
称 为 子 类 (child) 。 


在 本 例 中 ，Hand 也 会 继承 Deck H init 方法， 但 它 和 我 们 想 
要 的 并 不 一 样 : 我 们 不 需要 填充 52 张 卡 牌 ，Hand 的 init 方法 应 当初 始 
化 cards 为 一 个 空 列 表 。 


如 果 我 们 为 Hand 类 提供 一 个 init 方法 ， 它 会 覆盖 Deck 类 的 方 
TE: 























# 在 Hand 类 里 : 


def _ _init_ _(self, lable=''): 


self.cards = [] 
self.label = label 


[L CR 


在 创建 Hand 对 象 时 ，Python 会 调用 这 个 init 方法 而 不 是 Deck 中 的 
那个 : 


>>> hand = Hand('new hand') 
>>> hand.cards 


[] 


>>> hand. label 


'new hand' 





其 他 的 方法 是 从 Deck 中 继承 而 来 的 ， 所 以 我 们 可 以 使 用 pop_card 
和 add_card 来 出 牌 : 


>>> deck = Deck() 

>>> card = deck.pop_card() 
>>> hand.add_card(card) 
>>> print(hand) 

King of Spades 
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move_cards : 





# 在 Deck 类 里 : 


def move_cards(self, hand, num): 
for i in range(num): 
hand.add_card(self.pop_card()) 


[L E 


move_cards 接收 两 个 参数 ， 一 个 Hand 对 象 以 及 需要 出 牌 的 牌 数 。 
它 会 修改 self 和 hand ， 返 回 None 。 


有 的 情况 下 ， 卡 牌 会 从 一 副手 牌 中 移 除 转 入 到 另 一 幅 手 牌 中 ， 或 者 
从 手 牌 中 回 到 牌 组 。 你 可 以 使 用 move_cards 来 处 理 全 部 这 些 操 
作 : self 既 可 以 是 一 个 Deck 对 象 ， 也 可 以 是 一 个 Hand 对 象 。 而 hand 参 
数 ， 虽 然 名 字 是 hand ， 却 也 可 以 是 一 个 Deck 对 象 。 


继承 是 很 有 用 的 语言 特性 。 有 些 程序 不 用 继承 写 ， 会 有 很 多 重复 代 
码 ， 使 用 继承 后 就 会 更 加 优雅 。 继 承 也 能 促进 代码 复 用 ， 因 为 你 可 以 在 
不 修改 父 类 的 前 提 下 对 它 的 行为 进行 定制 化 。 有 的 情况 下 ， 继 承 结构 反 
映 了 问题 的 卓然 结构 ， 所 以 也 让 设计 更 容易 理解 。 








但 另 一 方面 ， 继 承 也 可 能 会 让 代码 更 难 读 。 有 时 候 当 一 个 方法 被 调 
用 时 ， 并 不 清楚 到 哪里 能 找到 它 的 定义 。 相 关 的 代码 可 能 散布 在 几 个 不 
同 的 模块 中 。 并 且 ， 很 多 可 以 用 继承 实现 的 功能 ， 也 能 不 用 它 实 现 ， 甚 
至 可 以 实现 得 更 好 。 


18.8 ”类 图 





至 此 我 们 已 见 过 用 于 显示 程序 状态 的 栈 图 ， 以 及 用 于 显示 对 象 的 属 
性 和 属性 值 的 对 象 图 。 这 些 图 表 展 示 了 程序 运行 中 的 一 个 快照 ， 所 以 当 
程序 继续 运行 时 它们 会 跟着 改变 。 














它们 也 极其 详细 ; 在 某 些 情况 下 ， 是 过 于 详细 了 。 而 类 图 对 程序 结 








构 的 展示 相对 来 说 更 加 抽象 。 它 不 会 具体 显示 每 个 对 象 ， 而 是 显示 各 个 
类 以 及 它们 之 间 的 关联 。 


类 之 间 有 下 面 几 种 关联 。 


一 个 类 的 对 象 可 能 包含 其 他 类 的 对 象 的 引用 。 例 如 ， 每 个 Rectangle 
对 象 都 包含 一 个 到 Point 对 象 的 引用 ， 而 每 一 个 Deck 对 象 包含 到 很 
多 Card 对 象 的 引用 。 这 种 关联 称 为 HAS-A (有 一 个 ) ， 也 就 是 
说 ,“ 和 矩形 (Rectangle) 中 有 一 个 点 (Point) ”。 

一 个 类 可 能 继承 自 另 一 个 类 。 这 种 关系 称 为 TS-A (是 一 个 ) ， 也 
就 是 说 ,“ 一 副手 牌 (Hand) 是 一 个 牌 组 (Deck) ”。 

一 个 类 可 能 依赖 于 另 一 个 类 ， 也 就 是 说 ， 一 个 类 的 对 象 接收 另 一 个 
类 的 对 象 作 为 参数 ， 或 者 使 用 另 一 个 类 的 对 象 来 进行 某 种 计算 。 这 
种 关系 称 为 依赖 (dependency) 。 





类 图 用 图 形 展 示 了 这 些 关 系 。 例 如 ， 图 18-2 展 示 了 Card 、Deck 和 
Hand 之 间 的 关系 。 











图 18-2 ”类 图 


空心 三 角形 箭头 的 线 代 表 着 一 个 IS-A 关 系 ; 这 里 表示 Hand 是 继承 自 
Deck 的 。 


标准 的 箭头 表示 HAS-A 关 系 ; 这 里 表示 Deck 对 象 中 有 到 Card 对 象 的 
引用 。 


箭头 附近 的 星 号 〈 类 ) 表示 是 关联 重 数 标记 ; 它 表 示 Deck 中 有 多 
少 Cards。 这 个 数 可 以 是 一 个 简单 的 数字 ， 如 52 ， 或 者 一 个 范围 ， 如 
5..7 ， 或 者 一 个 星 号 ， 表 示 Deck 可 以 有 任意 数量 的 Card 引 用 o 








图 18-2 中 没有 任何 依赖 和 关系。 依赖 关 通 种 使 用 虚线 箭头 表示 。 或 
者 ， 如 果 有 太 多 的 依 顿 ， 有 时 候 会 忽略 它们 。 


更 详细 的 图 可 能 会 显示 出 Deck 对 象 实际 上 包含 了 一 个 Card 的 列表 
。 但 在 类 图 中 ， 像 列表 、 字 典 这 样 的 内 置 类 型 通常 是 不 显示 的 。 





18.9 ”数据 封装 


前 几 间 展示 了 一 个 我 们 可 以 称 为 “ 面 同 对 象 设计 ”的 开发 计划 。 我 们 
发 现 需要 的 对 象 ， 如 Point 、Rectangle 和 Time， 并 定义 类 来 表达 它 
们 。 每 个 类 都 是 一 个 对 象 到 现实 世界 〈 或 者 最 少 是 数学 世界 ) 中 的 某 种 
实体 的 明显 对 应 。 


但 有 时 候 你 到 底 需要 哪些 对 象 、 它 们 如 何 交 互 ， 并 不 那么 显 而 易 
见 。 这 时 候 你 需要 另 一 种 开发 计划 。 和 之 前 我 们 通过 封装 和 泛 化 来 发 现 
函数 接口 的 方式 相同 ， 我 们 可 以 通过 数据 封装 来 发 现 类 的 接口 。 





13.8 市 提供 了 一 个 很 好 的 示例 。 如 果 从 
http://thinkpython2.com/code/markov.py 下 载 我 的 代码 ， 你 会 发 现 它 使 用 
了 两 个 全 局 变量 (suffix_map 和 prefix ) 并 且 在 多 个 函数 中 进行 读 
写 。 


suffix_map = {} 
prefix = () 





因为 这 些 变 量 是 全 局 的 ， 我 们 每 次 只 能 运行 一 个 分 析 。 如 果 我 们 读 
入 两 个 文本 ， 它 们 的 前 级 和 后 级 就 会 添加 到 相同 的 数据 结构 中 最 后 可 
以 用 来 产生 一 些 有 趣 的 文本 ) 。 








vs 


右 要 多 次 运行 分 机 ， 并 保证 它们 之 间 的 独立 ， 我 们 可 以 将 每 次 分 析 
的 状态 信息 封装 成 一 个 对 象 。 下 面 是 它 的 样子 : 


class Markov: 


def _init__(self): 
self.suffix_map = {} 
self.prefix = () 





接 下 来 ， 我 们 将 那些 函数 转换 为 方法 。 例 如 ， 下 面 


是 process_word : 





def process word(self, word, order=2): 
if len(self.prefix) < order: 
self.prefix += (word, ) 


return 


try: 
self.suffix_map[self.prefix].append(word) 
except KeyError: 
# 如 果 这 个 前 级 不 存在 ， 创 建 一 项 
self.suffix_map[self.prefix] = [word] 





self.prefix = shift(self.prefix, word) 








像 这 样 转换 程序 
4.771) 的 男 一 个 示例 。 


修改 设计 但 不 修改 其 行为 一 一 古 重 构 参见 





这 个 例子 给 出 了 一 个 设计 对 象 和 方法 的 开发 计划 。 


1. 从 编写 函数 、〔 如 果 需 要 的 话 ) 读 写 全 局 变量 开始 。 





2. 一 旦 你 的 程序 能 够 正确 运行 ， 查 看 全 局 变量 与 使 用 它们 的 函数 
的 关联 。 


3. 将 相关 的 变量 封装 成 为 对 象 的 属性 。 
4. 将 相关 的 函数 转换 为 这 个 新 类 的 方法 。 


作为 练习 ， 从 http://thinkpython2.com/code/markov.py 下 载 我 的 
Markov 人 代码， 并 按照 上 面 描述 的 步骤 将 全 局 变量 封装 为 一 个 叫 
作 Markov 的 新 类 的 属性 。 


解答 : http:Wthinkpython2.comy/code/Markov.py【〈 注 意 M 是 大 与 
ia 


18.10 “调试 


继承 会 给 调试 带 来 新 的 挑战 ， 因 为 当 你 调用 对 象 的 方法 时 ， 可 能 
法 知道 调用 的 到 底 是 哪个 方法 。 


假设 你 在 编写 一 个 操作 Hand 对 象 的 函数 。 你 可 能 希望 能 够 处 理 所 有 
类 型 的 Hand， 如 PokerHands、BridgeHands 等 。 如 果 你 调用 一 个 方法 ， 
如 shuffle ， 可 能 调用 的 是 Deck 中 定义 的 方法 ， 但 如 果 任 何 子 类 重 载 
了 这 个 方法 ， 则 你 调用 的 会 是 那个 重 载 的 版 本 。 








一 旦 你 无 法 确认 程序 的 运行 流程 ， 最 简单 的 解决 办 法 是 在 相关 的 方 
法 开头 添加 一 个 打印 语句 。 如 果 Deck.shuffle 打印 一 句 Running 
Deck.shuffle 这 样 的 信息 ， 则 当 程 序 运 行 时 会 跟踪 运行 的 流程 。 





或 者 ， 你 也 可 以 使 用 下 面 这 个 函数 。 它 接收 一 个 对 象 和 一 个 方法 名 
(字符 串 形式 ) ， 并 返回 提供 这 个 方法 的 定义 的 类 : 


def find_defining class(obj, meth_name): 
for ty in type(obj).mro(): 
if meth_name in ty. _ dict : 
return ty 





下 面 是 使 用 的 示例 : 





>>> hand = Hand() 
>>> find defining class(hand, 'shuffle') 
<class 'Card.Deck'> 


pO 


所 以 这 个 Hand 对 象 的 shuffle 方法 是 在 Deck 类 中 定义 的 那个 。 


find_defining class 使 用 mro 方法 来 获得 用 于 搜索 调用 方法 的 
类 对 象 〈 类 型 ) 列表 。“MRO” 意 思 是 “method resolution order” (方法 查 
找 顺 序 ) ， 是 Python 解析 方法 名 称 的 时 候 搜 索 的 类 的 顺序 。 





一 个 设计 建议 : 每 次 重 载 一 个 方法 时 ， 新 方法 的 接口 应 当 和 旧 方 法 
的 一 致 。 它 应 当 接 收 相 同 的 参数 ， 返 回 相 同 的 类 型 ， 并 服从 同样 的 前 置 
条 件 与 后 置 条 件 。 如 果 尊 循 这 个 规则 ， 你 会 发 现任 何 为 如 Deck 这 样 的 父 
类 设计 的 函数 ， 都 可 以 使 用 Hand 或 PokerHand 这 样 的 子 类 的 实例 。 





如 果 你 破坏 这 个 也 称 为 "Liskov 蔡 代 原 则 ”的 规则 ， 你 的 代码 可 能 会 
像 一 堆 《〈 不 好 意思 ) 纸牌 屋 一 样 骨 塌 。 


18.11 术语 表 





编码 Cencode) : 使 用 一 个 集合 的 值 来 表示 男 一 个 集合 的 值 ， 需 要 
在 它们 之 则 建立 映射 。 


类 属性 (class attribute) : 关联 到 类 对 象 上 的 属性 。 类 属性 定义 在 
类 定义 之 中 ， 但 在 所 有 方法 定义 之 外 。 





实例 属性 〈instance attribute) : 和 类 的 实例 关联 的 属性 。 


ME (veneer) : 一 个 方法 或 函数 ， 它 调用 男 一 个 函数 ， 却 不 做 其 
他 计算 ， 只 是 为 了 提供 不 同 的 接口 。 


继承 Cinheritance) : 可 以 定义 一 个 新 类 ， 它 是 一 个 现 有 的 类 的 修 
改版 本 。 


父 类 (parent class) : 被 子 类 所 继承 的 类 。 


子 类 (child class) : 通过 继承 一 个 现 有 的 类 来 创建 的 新 类 ， 也 叫 
作 “subclass”。 


IS-A 关 联 (IS-A relationship) : 子 类 与 父 类 之 间 的 关联 。 


HAS-A 关 联 (HAS-A relationship) : 两 个 类 之 间 的 一 种 关联 : 一 
个 类 包含 另 一 个 类 的 对 象 的 引用 。 


依赖 (dependency) : 两 个 类 之 间 的 一 种 关联 。 一 个 类 的 实例 使 用 
另 一 个 类 的 实例 ， 但 不 把 它们 作为 属性 存储 起 来 。 





类 图 (class diagram) : 用 来 展示 程序 中 的 类 以 及 它们 之 间 的 关联 
的 图 。 


重 数 (multiplicity) : 类 图 中 的 一 种 标记 方法 ， 对 于 HAS-A 关 联 ， 
用 来 表示 一 个 类 中 有 多 少 对 另 一 个 类 的 对 象 的 引用 。 


数据 封装 (data encapsulation) : 一 个 程序 开发 计划 。 先 使 用 全 局 
变量 来 进行 原型 设计 ， 然 后 将 全 局 变量 转换 为 实例 属性 做 出 最 终 版 本 。 


18.12 练习 


练习 18-1 


针对 下 面 的 程序 ， 男 一 张 UML 类 图 ， 展 示 这 些 类 以 及 它们 之 间 的 
关联 : 


class PingPongParent : 
pass 


class Ping(PingPongParent ) : 
def _ init__(self, pong): 
self.pong = pong 


class Pong(PingPongParent) : 
def _ init__(self, pings=None): 
if pings is None: 
self.pings = [] 
else: 
self.pings = pings 


def add_ping(self, ping): 
self.pings.append(ping) 


pong = Pong() 
ping = Ping(pong) 
pong.add_ping(ping) 





2 >] 18-2 


编写 一 个 名 为 deal_hands 的 Deck 方 法 ， 接 收 两 个 形 参 : 手 牌 的 数 
量 以 及 每 副手 牌 的 牌 数 。 它 会 根据 形 参 创建 新 的 Hand 对 象 ， 按 照 每 副手 
牌 的 牌 数 出 牌 ， 并 返回 一 个 Hand 对 象 列表 。 


练习 18-3 


下 面 列 出 的 是 扑 苑 牌 中 可 能 的 手 牌 ， 按 照 牌 值 大 小 的 增 序 〈 也 是 可 
能 性 的 降序 ) 排列 。 


。 对 子 (pair) : 两 张 牌 大 小 相同 。 

e 两 对 (two pair) : 两 个 对 子 。 

e 三 条 (three of a kind) : 三 张 牌 大 小 相同 。 

顺 子 〈straight) : 五 张大 小 相连 的 牌 (Ace 既 可 以 是 最 大 也 可 以 是 
最 小 ， 所 以 Ace-2-3-4-5 是 顺 子 ，10-Jack-Queen-King-Ace 也 是 ， 但 
Queen-King-Ace-2-3 不 是 ) 。 

同 花 (flush) : 五 张 牌 花 色相 同 。 

满堂 红 (full house) : 三 张 牌 大 小 相同 ， 另 外 两 张 牌 大 小 相同 。 
四 条 (four of a kind) : 四 张 牌 大 小 相同 。 

同花顺 (straight flush) : 顺 子 “如 上 面 的 定义 ) 里 的 五 张 牌 都 是 
花色 相同 的 。 


本 练习 的 目标 是 预测 这 些 手 牌 的 出 牌 概率 。 


1. 从 http:Wthinkpython2.comy/code 下 载 这 些 文件 。 


Card.py : 本 章 中 介绍 的 Card 、Deck 和 Hand 类 的 完整 代码 。 
PokerHand.py : 表达 扑克 手 牌 的 一 个 类 ， 实 现 并 不 完整 ， 包 含 一 
些 测试 它 的 代码 。 





2. 如 果 你 运行 PokerHand .py ， 它 会 连 出 7 组 包含 7 张 卡 片 的 扑克 
手 牌 ， 并 检查 其 中 有 没有 顺 子 。 在 继续 之 前 请 仔细 阅读 代码 。 


3. 在 PokerHand .py 中 添加 方法 has_pair 、has_twopair 等 。 
它们 根据 手 牌 是 否 达到 相对 应 的 条 件 来 返回 True 或 False。 你 的 代码 应 当 
对 任意 数量 的 手 牌 都 适用 (虽然 最 常见 的 手 牌 数 是 5 或 7〉。 





4. 编写 一 个 函数 classify (分 类 ) ， 它 可 以 弄 清楚 一 副手 牌 中 出 
现 的 最 大 的 组 合 ， 并 设置 1abel 属性 。 例 如 ， 一 副 7 张 牌 的 手 牌 可 能 
含 一 个 顺 子 以 及 一 个 对 子 ;， 它 应 当 标 记 为 “flush”( 顺 子 )。 


5. 当 你 确保 分 类 方法 可 用 时 ， 下 一 步 是 预 训 各 种 手 牌 的 概率 。 
在 PokerHand.py 中 编写 一 个 函数 ， 对 一 副 牌 进行 洗 脾 ， 将 其 分 成 不 同 
手 牌 ， 对 手 牌 进行 分 类 ， 并 记录 每 种 分 类 出 现 的 次 数 。 


6. 打印 一 个 表格 ， 展 示 各 种 分 类 以 及 它们 的 概率 。 更 多 次 地 运行 
你 的 程序 ， 直 到 输出 收敛 到 一 个 合理 程度 的 正确 性 为 止 。 将 你 的 结果 和 
http://en.wikipedia.org/wiki/ Hand_rankings 上 的 值 进行 对 比 。 


解答 : http://thinkpython2.com/code/PokerHandSoln.py。 


第 19 章 ”Python 拾 珍 


本 书 的 一 大 目标 一 直 是 尽 可 能 少 地 介绍 Python 语言 。 如 果 做 某 种 事 
情 有 两 种 方法 ， 我 会 选择 一 种 ， 并 避免 提 及 力 一 种 。 或 者 有 时 候 ， 我 会 
把 另 一 种 方法 作为 练习 进行 介绍 。 


本 章 我 会 市 领 大 家 回顾 那些 遗漏 的 地 方 。Python 提 供 了 不 少 并 不 是 
完全 必需 的 功能 《不 用 它们 也 能 写 出 好 代码 ) ， 但 有 时 候 ， 使 用 这 些 功 
能 可 以 写 出 更 简洁 、 更 可 读 或 者 更 局 效 的 代码 ， 甚 至 有 时 候 三 者 兼 得 。 


19.1 条 件 表达 式 








我 们 在 5.4 节 中 见 过 条 件 语 句 。 条 件 语 句 通 闻 用 来 从 两 个 值 中 选择 
一 个 。 例 如 : 


if x > @: 

y = math.1log(x) 
else: 

y = float('nan') 








这 条 语句 检查 x 是 否 为 正 数 。 如 果 为 正 数 ， 则 计算 math.1og ; 如 
果 为 负数 ，math. log 会 抛 出 ValueError 异常 。 为 了 避免 程序 停止， 
我 们 直接 生成 一 个 “NaN”， 一 个 特殊 的 浮 点 数 ， 代 表 “ 不 是 数 ”(Not A 
Number) 。 


我 们 可 以 用 条 件 表达 式 来 更 简洁 地 写 出 这 条 语句 : 


y = math.log(x) if x > @ else float('nan') 





这 条 语句 几乎 可 以 用 英语 直接 读 出 来 :“y gets log-x if x is greater 
than 0; otherwise it gets NaN” (Y 的 值 在 x KFO 时 是 math.log(x) ， 人 否 
则 是 NaN ) 。 





递归 函数 有 时 候 可 以 用 条 件 表达 式 重 写 。 例 如 ， 下 面 是 factorial 
的 一 个 递归 版 本 : 


def factorial(n): 
if n == @: 
return 1 
else: 
return n * factorial(n-1) 





我 们 可 以 将 其 重 写 为 : 


def factorial(n): 
return 1 if n == @ else n * factorial(n-1) 





条 件 表达 式 的 另 一 个 用 途 是 处 理 可 选 参数 。 例 如 ， 下 面 是 
GoodKangaroo 的 init 方 法 (参见 练习 17-2) : 


def _ init (self, name, contents=None): 
self.name = name 
if contents == None: 
contents = [] 
self.pouch_contents = contents 





我 们 可 以 将 其 重 写 为 ; 


def _ init (self, name, contents=None): 
self.name = name 
self.pouch_contents = [] if contents == None else contents 





一 般 来 说 ， 如 果 条 件 语句 的 两 个 条 件 分 文 都 只 包含 简单 的 返回 或 对 
同一 变量 进行 赋值 的 表达 式 ， 那 么 这 个 语句 可 以 转化 为 条 件 表达 式 。 


19.2 ”列表 理解 


在 10.7 节 中 我 们 已 经 见 过 上 映 映 和 过 滤 模 式 。 例 如 ， 下 面 的 函数 接收 
一 个 字符 串 列 表 ， 将 每 个 元 素 通过 字符 串 方 法 capitalize 进行 映射 ， 
并 返回 一 个 新 的 字符 串 列表 。: 
def capitalize all(t): 

res = [] 


for s int: 
res.append(s.capitalize() ) 


return res 





我 们 可 以 用 列表 理解 (ist comprehension) 把 这 个 函数 写 得 更 紧 


def capitalize all(t): 


return [s.capitalize() for s in t] 





上 面 的 方 括 写 操作 符 说 明 我 们 要 构建 一 个 新 列表 。 方 括 写 之 内 的 表 
达 式 指定 了 列表 的 元 素 ， 而 for 子 句 则 表示 我 们 要 遍历 的 序列 。 





列表 理解 的 语法 有 一 点 粗糙 的 地 方 ， 因 为 里 面 的 循环 变量 ， 即 本 例 
中 的 s ， 在 表达 式 中 出 现在 定义 之 前 。 


列表 理解 也 可 以 用 于 过 滤 操 作 。 例 如 ， 下 面 的 函数 选择 列表 t 中 的 
大 写 元 素 ， 并 返回 一 个 新 列表 : 


def only_upper(t): 
res = [] 
for s int: 
if s.isupper() 
res.append(s) 
return res 





我 们 可 以 用 列表 理解 将 其 重 写 为 : 





def only_upper(t): 
return [s for s in t if s.isupper()] 


[L E 

对 于 简单 表达 式 来 说 ， 列 表 理 解 更 紧凑 、 更 易于 阅读 ， 并 且 和 它们 通 
常 都 比 实现 相 同 功能 的 循环 更 快 ， 有 时 候 甚 至 快 很 多 。 因 此 ， 如 果 你 因 
为 我 没有 早 些 提 到 它 而 恼人 悉 ， 我 表示 十 分 理解 。 





但 是 我 得 辩解 一 下 ， 列 表 理 解 更 难以 调试 ， 因 为 你 没 法 在 循环 内 添 
加 打印 语句 。 我 建议 你 只 在 计算 简单 到 一 次 束 能 弄 对 的 时 候 才 使 用 它 。 
对 于 初学 者 来 说 ， 这 意味 着 从 来 不 用 。 


19.3 pas eerA IN 


生成 器 表达 式 (generator expression) 和 列表 理解 类 似 ， 但 是 它 使 
用 圆 括号 ， 而 不 是 方 括号 : 





>>> g = (x**2 for x in range(5)) 
>>> g 
<generator object <genexpr> at 0x7f4c45a786c@> 





结果 是 一 个 生成 器 对 象 ， 它 知道 该 如 何 遍历 值 的 序列 。 但 它 又 和 列 
表 理 解 不 同 ， 它 不 会 一 次 把 结果 都 计算 出 来 ， 而 是 等 得 请 求 。 内 置 函 
Binext 会 从 生成 费 中 获取 下 一 个 值 : 





>>> next(g) 
0 


>>> next(g) 
1 


pT 


当 到 达 序 列 的 结尾 后 ，next 会 抛 出 一 个 StopIteration 异常 。 可 
以 使 用 for 循环 来 过 历 所 有 值 : 


>>> for val in g: 
print(val) 








E Mat Roe PRE oR Pi, PUA for 循环 会 从 上 一 
个 next MERMA. —H ÆRMER, FOTIA) SS h 
StopException : 


>>> next(g) 
StopIteration 





生成 器 表达 式 经 常 和 sum . max 和 min 之 类 的 函数 配合 使 用 : 


>>> sum(x**2 for x in range(5)) 
30 





19.4 any 和 al1 


Python 提供 了 一 个 内 置 函 数 any ， 它 接收 一 个 由 布尔 值 组 成 的 序 
列 ， 并 在 其 中 任何 值 是 True 时 返回 True 。 它 可 以 用 于 列表 : 


>>> any([False, False, True]) 
True 








{Be SEs AE a ASIA TL: 


>>> any(letter == 't' for letter in 'monty') 
True 





上 面 这 个 例子 用 处 不 大 ， 因 为 它 做 的 事情 和 in 表达 式 一 样 。 但 是 
我 们 可 以 用 any 来 重 写 9.3 节 中 的 搜索 函数 。 例 如 ， 我 们 可 以 将 avoids 
函数 重 写 为 : 


def avoids(word, forbidden): 
return not any(letter in forbidden for letter in word) 





这 个 函数 读 起 来 几乎 和 英语 一 致 : “word avoids forbidden if there are 
not any forbidden letters in word”( 我 们 说 一 个 word 避免 被 禁止 ， 是 
指 word 中 没有 任何 被 禁 的 字母 ) 。 


Python 还 提供 了 男 一 个 内 置 函 数 al1l ， 它 在 序列 中 所 有 元 系 痢 


是 True 时 返回 True 。 作 为 练习 ， 请 使 用 all 重 写 9.3 节 中 的 uses_all 
函数 。 


19.5 集合 





我 曾 在 13.6 节 中 使 用 字典 来 寻找 在 文档 中 出 现 但 不 属于 一 个 单词 列 
表 的 单词 。 我 写 的 函数 接收 一 个 字典 参数 d1 ， 其 中 包含 文档 中 所 有 的 
单词 作为 键 ; 以 及 另 一 个 参数 d2 ， 包 含 单词 列表 。 它 返回 一 个 字典 ， 
包含 d1 中 所 有 不 在 d2 之 中 的 键 : 








def substract(d1, d2): 
res = dict() 
for key in d1: 
if key not in d2: 
res[key] = None 


return res 





在 这 些 字 典 中 ， 值 都 是 None ， 因 为 我 们 从 来 不 用 它们 。 因 此 ， 我 
们 实际 上 浪费 了 一 些 存储 空间 。 

Python 还 提供 了 另 一 个 内 置 类 型 ， 称 为 集合 (set) ， 它 表现 得 和 
没有 值 而 只 使 用 键 集合 的 字典 类 似 。 向 一 个 集合 添加 元 素 很 快 ， 检 查 集 
合成 员 也 很 快 。 集 合 还 提供 方法 和 操作 符 来 进行 常见 的 集合 操作 。 

例如 ， 集 合 减 法 可 以 使 用 方法 difference 或 者 操作 符 ‘-? 来 实 
现 。 因 此 我 们 可 以 将 substract 函数 重 写 为 : 


def substract(d1, d2): 


return set(d1) - set(d2) 








结果 是 一 个 集合 而 不 是 字典 ， 但 是 对 于 过 历 之 类 的 操作 ， 表 现 是 一 
样 的 。 


本 书 中 的 一 些 练习 可 以 用 集合 来 更 加 简洁 且 高 效 地 实现 。 例 如 ， 练 
习 10-7 中 的 has_duplicates 函数 ， 下 面 是 使 用 字典 来 实现 的 一 个 解 
答 : 


def has_duplicates(t): 
d = {} 
for x in t: 
if x in d: 
return True 
d[x] = True 
return False 





一 个 元 系 第 一 次 出 现 的 时 候 ， 把 它 加 入 到 字典 中 。 如 果 相 同 的 元 素 
再 次 出 现时 ， 函 数 束 返回 True 。 


使 用 集合 ， 我 们 可 以 这 样 写 同一 个 函数 : 


def has_duplicates(t): 
return len(set(t)) < len(t) 








一 个 元 素 在 一 个 集合 中 只 能 出 现 一 次 ， 所 以 如 果 t 中 间 的 某 个 元 素 
出 现 超 过 一 次 ， 那 么 变 成 集合 后 其 长 度 会 比 t 小 。 如 果 没 有 任何 重复 元 
素 ， 那 么 集合 的 长 度 应 当 和 t 相同 。 





我 们 也 可 以 使 用 集合 来 解决 第 9 章 中 的 一 些 练习 。 例 如 ， 下 面 
是 uses_only 函数 使 用 循环 来 实现 的 版 本 : 


def uses_only(word, available): 
for letter in word: 
if letter not in available: 
return False 


return True 











uses_only 检查 word 中 所 有 的 字符 是 不 是 在 available 中 出 现 。 
我 们 可 以 这 样 重 写 : 


def uses_only(word, available): 
return set(word) <= set(available) 





操作 符 <= 检查 一 个 集合 是 否 是 另 一 个 集合 的 子 集 ， 包 括 两 个 集合 
相等 的 情况 。 这 正好 符合 word 中 所 有 字符 都 出 现在 available 中 。 


19.6 计数 器 


计数 器 (counter) 和 集合 类 似 ， 不 同 之 处 在 于 ， 如 果 一 个 元 素 出 现 


超过 一 次 ， 计 数 圳 会 记录 它 出 现 了 多 少 次 。 如 果 你 熟悉 多 重 集 
Cmultiset》 这 个 数学 概念 ， 就 会 发 现 计 数 器 是 多 重 集 的 一 个 日 然 的 表 


计数 器 定义 在 标准 模块 collections 中 ， 所 以 需要 导入 它 再 使 
用 。 可 以 用 字符 串 、 列 表 或 者 其 他 任何 支持 迭代 访问 的 类 型 对 象 来 初始 
化 计数 器 : 


>>> from collections import Counter 
>>> count = Counter('parrot') 

>>> count 

Counter({'r':2, 't': 





计数 器 有 很 多 地 方 和 字典 相似 。 它 们 将 每 个 键 映 射 到 其 出 现 次 数 。 
和 字典 一 样 ， 键 必须 是 可 散 列 的 。 


但 和 字典 不 同 的 是 ， 在 访问 计数 器 中 不 存在 的 元 素 时 ， 它 并 不 会 抛 
出 异 第 。 相 反 ， 它 会 返回 8 : 


>>> count['d'] 
0 


我 们 可 以 使 用 计数 器 来 重 写 练习 10-6 中 的 ijs_anagranm 函数 : 


def is anagram(word1, word2): 
return Counter(word1) == Counter(word2) 


如 果 两 个 单词 互 为 回 文 ， 则 它们 会 包含 相同 的 字母 ， 且 各 个 字母 的 
计数 相同 ， 所 以 它们 对 应 的 计数 器 对 象 也 会 相等 。 


计数 器 提供 方法 和 操作 符 来 进行 类 似 集合 的 操作 ， 包 括 集合 加 法 、 
减法 、 并 集 和 交集 。 计 算 器 还 提供 一 个 非常 党 用 的 方法 most_common 
， 它 返回 一 个 值 -频率 对 的 列表 ， 按 照 最 常见 到 最 少见 来 排序 : 











>>> count = Counter('parrot ) 
>>> for val, freq in count, most_common(3): 


print(val, freq) 





19.7 defaultdict 
collections 模块 还 提供 了 defaultdict ， 它 和 字典 相似 ， 不 同 
的 是 ， 如 果 你 访问 一 个 不 存在 的 键 ， 它 会 自动 创建 一 个 新 值 。 


创建 一 个 defaultdict 对 象 时 ， 需 要 提供 一 个 用 于 创建 新 值 的 函 
数 。 用 来 创建 对 象 的 函数 有 时 被 称 为 工厂 factory) 函数 。 用 于 创建 列 
表 、 集 合 以 及 其 他 类 型 对 象 的 内 置 函 数 ， 都 可 以 用 作 工 三 函数 : 


>>> from collections import defaultdict 
>>> d = defaultdict(list) 


| 


请 注意 ， 参 数 是 list (一 个 类 对 象 ) ， 而 不 是 list() (一 个 新 的 
列表 ) 。 你 提供 的 函数 直到 访问 不 存在 的 键 时 ， 才 会 被 调用 的 : 





>>> t = d['new key'] 
>>> t 


[] 





新 列表 t 也 会 加 到 字典 中 。 所 以 ， 如 采 我 们 修改 +t ， 改 动 也 会 在 d 
中 体现 : 
>>> t.append('new value' ) 


>>> d 
defaultdict(<class ‘list'>, {'new key': [new value’ ]}) 





如 果 创 建 一 个 由 列表 组 成 的 字典 ， 使 用 defaultdict 往往 能 够 帮 
你 写 出 更 简洁 的 代码 。 在 练习 12-2 的 解答 中 ， 我 创建 了 一 个 字典 ， 将 排 
序 的 字母 字符 串 映 射 到 可 以 由 那些 字母 拼写 出 来 的 单词 列表 。 例 
如 ， ‘opst' 映射 到 列表 [ "opts'， 'post', 'pots', 'spot', 
‘stop', ‘tops']. ALAM 
http://thinkpython2.com/code/anagram_sets.py FRIZE. 


下 面 是 原始 的 代码 : 


def all_anagrams(filename): 
d = {} 
for line in open(filename): 
word = line.strip().lower() 
t = signature(word) 
if t not in d: 


d[t] = [word] 


else: 
d[t].append(word) 
return d 





这 个 函数 可 以 用 setdefault 简化 ， 你 可 能 在 练习 11-2 中 也 用 过 : 


def all_anagrams(filename): 
d = {} 
for line in open(filename): 
word = line.strip().lower() 
t = signature(word) 
d.setdefault(t, []).append(word) 
return d 








但 这 个 解决 方案 有 一 个 缺点 ， 它 不 管 是 否 需 要 ， 每 次 都 会 新 建 一 个 
列表 。 对 于 列表 来 说 ， 这 并 不 算 大 问题 ， 但 如 果 工 厂 函 数 非常 复杂 ， 就 
有 可 能 成 为 问题 了 。 





我 们 可 以 使 用 defaultdict 来 避免 这 个 问题 ， 并 进一步 简化 代 
码 : 





def all_anagrams(filename): 
d = defaultdict(list) 
for line in open(filename): 
word = line.strip().lower() 


t = signature(word) 
d[t]. append(word) 
return d 





在 练习 18-3 的 解答 中 ， 函 数 has_straightflush 中 使 用 了 
setdefault 。 可 以 从 http:/ thinkpython2.com/code/PokerHandSoln.py F 
载 它 。 但 这 个 解决 方案 的 缺点 是 ， 不 管 是 否 必需 ， 每 次 循环 迭代 都 会 创 
建 一 个 新 的 Hand 对 象 。 作 为 练习 ， 请 使 用 defaultdict 重 写 该 函数 。 





19.8 ”命名 元 组 


很 多 简单 的 对 象 其 实 都 可 以 看 作 是 几 个 相关 值 的 集合 。 例 如 ， 第 15 
章 中 定义 的 Point 对 象 ， 包 含 两 个 数字 ， 即 x 和 y 。 定 义 一 个 这 样 的 类 
时 ， 通 常会 从 init 方法 和 str 方法 开始 : 


class Point: 


def _init__(self, x=0, y=0): 
self.x = x 
self.y = y 


def _str (self,): 
return '(%g, %g)' % (self.x, self.y) 





这 里 用 了 很 多 代码 来 传达 很 少 的 信息 。Python 提 供 了 一 个 更 简洁 的 
方式 来 表达 同一 个 意思 : 


from collections import namedtuple 
Point = namedtuple('Point', ['x', 'y']) 





第 一 个 参数 是 你 想 要 创建 的 类 名 。 第 二 个 参数 是 Point 对 象 应 当 包含 
的 属性 的 列表 ， 以 字符 串 表示 。namedtuple 的 返回 值 是 一 个 类 对 象 : 


>>> Point 
<class ' main .Point'> 





这 里 Point 类 会 自动 提供 ”init 和 ”str _ 这 样 的 方法 ， 所 以 你 
不 需要 写 它们 。 


要 创建 一 个 Point 对 象 ， 可 以 把 Point 类 当 作 函数 来 用 : 


>>> p = Point(1, 2) 
>>> p 
Point(x=1, y=2) 








init 方法 使 用 你 提供 的 名 字 把 实 参 值 赋 给 属性 。str 方法 会 打印 


出 Point 对 象 及 其 属性 的 字符 串 表 示 。 
可 以 使 用 名 称 来 访问 命名 元 组 的 元 素 : 


>>> p.x, p.y 
(1, 2) 





也 可 以 直接 把 它 当 作 元 组 来 处 理 : 


>>> p[@], p[1] 
2) 


3 


>>> x,y =p 
>>> X, y 


(1, 2) 





命名 元 组 提供 了 快速 定义 简单 类 的 方法 ， 但 其 缺点 是 简单 的 类 并 不 
会 总 保持 简单 。 可 能 之 后 你 需要 给 命名 元 组 添加 方法 。 如 果 那 样 ， 可 以 
定义 一 个 新 类 ， 继 承 当前 的 命名 元 组 : 





class Pointier(Point): 
# 在 这 里 添加 更 多 的 方法 











或 者 也 可 以 直接 切换 成 传统 的 类 定义 。 


19.9 ”收集 关键 词 参数 


在 12.4 节 中 ， 我 们 见 过 如 何 编写 函数 将 其 参数 收集 成 一 个 元 组 : 


def printall(*args): 
print(args) 


可 以 使 用 任意 个 数 的 按 位 实 参 〈 也 就 是 说 ， 不 带 名 称 的 实 参 ) 来 调 
用 这 个 函数 : 


>>> printall(1, 2.0, '3') 
(1, 2.0, '3') 





但 是 * 写 操作 符 并 不 会 收集 关键 词 实 参 : 


>>> printall(1, 2.0, third='3') 
TypeError: printall() got an unexpected keyword argument ‘third’ 





要 收集 关键 词 实 参 ， 可 以 使 用 ** 操 作 符 : 


def printall(*args, **kwargs): 
print(args, kwargs) 





这 里 收集 关键 词 形 参 可 以 任意 命名 ， 但 kwargs 是 一 个 常见 的 选 
择 。 收 集 的 结果 是 一 个 将 关键 词 映 射 到 值 的 字典 : 





>>> printall(1, 2.0, third='3') 
(1, 2.0){'third': '3'} 


oS ëO 


如 果 有 一 个 关键 词 到 值 的 字典 ， 就 可 以 使 用 分 散 操作 符 ** 来 调用 
PAB: 


>>> d = dict(x=1, y=2) 
>>> Point(**d) 
Point(x=1, y=2) 





没有 用 分 散 操作 符 的 话 ， 函 数 会 把 d 当 作 一 个 单独 的 按 位 实 参 ， 所 
以 它 会 把 d 赋值 给 x ， 并 因为 没有 提供 y 的 赋值 而 报错 : 


>>> d = dict(x=1, y=2) 

>>> Point(d) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


TypeError: _new () missing 1 required positional argument: 'y' 








当 人 处 理 参数 很 多 的 函数 时 ， 创 建 和 传递 字典 来 指定 常用 的 选项 是 非 
HAHA 


19.10 术语 表 


条 件 表 达 式 (conditional expression) : 一 个 根据 条 件 返 回 一 个 或 
两 个 值 的 表达 式 。 


列表 理解 (list comprehension) : 一 个 以 方 框 包含 一 个 for 循环 ， 
生成 新 列表 的 表达 式 。 


生成 喜 表 达 式 (generator expression) : 一 个 以 括号 包含 一 个 for 
循环 ， 返 回 一 个 生成 器 对 象 的 表达 式 。 


ZER (multiset) : 一 个 用 来 表达 从 一 个 集合 的 元 系 到 它们 出 现 
次 数 的 映射 的 数学 概念 。 


工厂 函数 (factory): 一 个 用 来 创建 对 象 ， 并 常常 当 作 参 数 使 用 的 
函数 。 


19.11 练习 


练习 19-1 





下 面 的 函数 可 以 递归 地 计算 二 项 式 系数 : 





def binomial_coeff(n, k): 
""" 计 算 (n，k) 的 二 项 式 系数 . 


n: 试验 次 数 
k: 成 功 次 数 





返回 : int 


if k == 0: 
return 1 

if n == @: 
return @ 


res = binomial_coeff(n-1, k) + binomial_coeff(n-1, k-1) 
return res 


pO 
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注意 : 这 个 函数 效率 不 高 ， 因 为 它 会 不 停 地 重复 计算 相同 的 值 。 可 
以 通过 使 用 备 筷 (memoizing, 211.67) 来 提高 它 的 效率 。 但 你 可 
能 会 有 发现， 使 用 条 件 表达 陈 之 后 ， 添 加 备 瑟 会 变 得 比较 困难 。 





第 20 章 ”调试 


调试 程序 时 ， 应 当 区 分 不 同类 型 的 错误 ， 以 便 更 快 地 查找 出 错误 原 


语法 错误 (semantic error) 在 将 源 代 码 翻译 为 字 节 码 的 过 程 中 由 解 
释 器 发现 。 它 们 通常 表示 有 程序 结构 错误 。 例 如 ， 在 def 语句 的 末 
尾 漏 摊 冒号 ， 会 产生 一 个 有 些 元 余 的 错误 信息 SyntaxError: 
invalid syntax 。 
运行 时 错误 (runtime error) 由 解释 器 在 程序 运行 的 过 程 中 发 现 错 
误 后 产生 。 大 部 分 错误 消 有 息 都 包含 了 错误 发 生 的 位 置 以 及 正在 执行 
的 函数 的 信息 。 例 如 : 一 个 无 限 递归 最 终 会 导致 运行 时 错误 
maximum recursion depth exceeded CHIRK ŚR) 。 
语义 错误 (semantic error) 是 程序 运行 中 没有 产生 错误 信息 ， 但 做 
的 事情 却 不 正确 的 情况 。 例 如 : 一 个 表达 式 求 值 的 顺序 和 你 预想 的 
不 同 ， 因 此 产生 了 不 正确 的 结 











调试 的 第 一 步 就 是 弄 清楚 你 面 对 的 到 底 是 哪 种 类 型 的 错误 。 昌 然 下 
面 的 几 节 是 按照 错误 类 型 来 组 织 的 ， 但 有 些 技巧 其 实 可 以 适用 于 多 种 情 
形 。 


20.1 1 E 





语法 错误 ， 在 弄 清 楚 它 们 是 什么 之 后 ， 通 常 都 很 容易 修正 。 不 泣 的 


是 ， 错 误 信 息 往往 没什么 帮助 。 最 常见 的 错误 信息 是 SyntaxError: 
invalid syntax 和 SyntaxError: invalid token ， 这 两 种 都 没 多 


ere E. 
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HFH, fa EBK VR A EY REIN. SEBO E, 
它 告 诉 你 的 是 Python 发 现 错误 的 位 置 ， 而 并 不 一 定 总 和 错误 发 生 的 位 置 
相同 。 有 时 候 错 误 发 生 在 错误 信息 指明 的 位 置 之 前 ， 往 往 是 前 一 行 。 

如 果 你 递增 地 构建 程序 ， 应 当 很 清楚 错误 发 生 的 位 置 。 它 常常 在 你 
最 后 添加 的 那 行 代码 上 。 

如 果 你 是 从 书本 中 复制 代码 ， 则 最 好 先 和 仔细 比较 上 自己 的 代码 和 书 中 


的 代码 。 检 查 每 一 个 字母 。 同 时 请 记得 书本 也 可 能 是 错 的 ， 所 以 如 果 你 
看 到 一 个 像 是 语法 错误 的 东西 ， 那 么 它 有 可 能 就 是 。 





下 面 是 一 些 可 以 避免 最 常见 的 语法 错误 的 方法 。 





1. 确保 你 没有 使 用 Python 关 键 字 作 为 变量 名 称 。 


2. 检查 在 每 一 个 复合 语句 的 语句 头 结尾 ， 都 有 一 个 冒号 ， 包 括 for 
. while. if 和 def 语句 。 


3， 确 保 程序 中 每 个 字符 串 都 有 前 后 匹配 的 引号 。 确 定 每 个 括号 都 
是 直 引 号 《如 "〉 ， 而 不 是 弯 引 号 (如 ”) 。 





4. 如 果 有 三 引号 〈 单 引号 或 双 引 号 字符) 多 行 字符 串 ， 确 保 你 正 
确 结束 了 字符 串 。 没 有 正确 结束 的 字符 串 ， 会 导致 程序 结尾 处 产 
生 invalid token 错误 ， 或 者 它 会 将 接 下 来 的 程序 看 作 字 符 串 的 一 部 


分 ， 直 到 遇 到 下 一 个 字符 串 为 止 。 这 种 情况 下 ， 可 能 都 不 会 产生 错误 信 
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5. 没有 关闭 的 开始 符号 〈(、{ 或 [ ) 会 让 Python 继续 解析 下 一 
行 ， 并 当 作 当前 语句 的 一 部 分 。 通 常 来 说 ， 会 在 下 一 行 立 即 产 生 一 个 错 


6. 检查 在 条 件 判断 时 将 ==’ 写成 =’ 的 经 典 错误 。 


7. 检查 缩 进 ， 确 保 它 们 是 按照 设想 正确 排 布 的 。Python 可 以 处 理 
空格 和 制 表 符 ， 但 如 果 混 合 使 用 它们 ， 则 可 能 产生 问题 。 避 免 这 种 问题 
最 好 的 办 法 是 使 用 一 个 懂得 Python 的 编辑 器 ， 并 由 它 产 生 一 致 的 缩 进 。 





8. 如果 你 的 代码 中 有 非 ASCII 字 符 〈 包 括 字 符 串 和 注释 中 ) ， 虽 然 
Python 3 通 钊 能 处 理 好 非 ASCII 字 符 ， 但 还 是 可 能 导致 问题 。 当 你 从 网 页 
或 其 他 来 源 直 接 复制 文本 时 ， 需 要 格外 注意 。 





如 果 上 面 的 办 法 都 没 用 ， 请 继续 看 下 一 节 。 
我 一 直 进 行 修改 ， 但 没有 什么 区 别 


如 果 解 释 融 报 出 一 个 错误 而 你 又 找 不 到 ， 有 可 能 是 因为 解释 器 和 你 
用 的 并 不 是 同一 套 代码 。 检 查 你 的 编程 环境 ， 确 保 你 正在 编辑 的 代码 和 
Python 运行 的 是 同一 个 。 








如 宁 不 确定 ， 可 以 等 试 在 程序 开头 加 上 一 个 明显 而 故意 的 错误 。 再 
运行 一 次 。 如 果 解 释 器 并 没有 发 现 新 的 错误 ， 那 么 说 明 你 运行 的 不 是 新 
代码 。 





可 能 有 以 下 几 种 原因 。 











。 你 编辑 了 代码 ， 但 忘 了 保存 更 改 就 直接 运行 了 。 有 的 编程 环境 会 帮 
你 自动 保存 ， 有 的 不 会 。 

。 你 修改 了 文件 名 ， 但 仍然 在 使 用 旧 文 件 名 运行 程序 。 

。 你 的 编程 环境 可 能 没有 正确 配置 。 

。 如 果 你 在 编写 一 个 模块 ， 并 使 用 import ， 请 确保 你 的 模块 名 称 没 
有 和 Python 标 准 模 块 冲突 。 

。 如 有 果 你 在 使 用 import 来 读 入 模块 ， 请 记得 重 载 一 个 修改 过 的 文件 
时 ， 需 要 重启 解释 器 或 者 使 用 reload 。 如 果 你 直接 重新 导入 这 个 
模块 ， 它 并 不 会 做 任何 事 。 











如 果 你 遇 到 困难 被 卡 住 ， 而 且 和 弄 不 清楚 到 底 怎 么 回 事 ， 一 个 办 法 是 
重新 以 最 简单 的 类 似 “Hello，World! ”的 程序 开始 ， 并 确保 你 能 让 一 个 
己 知 的 程序 正确 运行 。 然 后 逐渐 添加 原先 程序 的 部 分 到 新 的 程序 中 。 





20.2 ”运行 时 错误 





一 旦 你 的 程序 已 经 确保 语法 正确 ，Python 可 以 读 它 ， 并 且 人 至 少 可 以 
开始 运行 它 。 这 时 候 可 能 发 生 哪 些 错误 ? 


20.2.1 我 的 程序 什么 都 不 做 


这 个 问题 最 第 见 的 原因 是 你 的 文件 包含 了 各 种 函数 和 类 的 定义 ， 但 
没有 实际 调用 函数 来 启动 执行 。 如 果 你 是 为 了 导入 模块 使 用 它们 提供 的 
类 和 函数 ， 那 么 这 么 做 可 能 是 故意 有 的 。 








如 果 不 是 故意 的 ， 则 确保 在 程序 中 有 一 个 函数 调用 ， 并 确保 执行 流 
程 能 到 达 这 一 函数 调用 (参见 20.2.5 节 ) 。 


20.2.2 ”我 的 程序 卡 死 了 


如 采 一 个 程序 突然 停止 并 看 起 来 什么 事情 都 没 做 ， 它 就 “ 卡 死 了 ”。 
通常 这 意味 着 程序 卸 入 一 个 死 循环 或 者 无 限 递归 中 。 





。 如 果 怀 疑 一 个 特别 的 循环 可 能 是 问题 所 在 ， 可 以 在 循环 开始 前 添加 
一 个 print 语句 ， 打 出 “进入 循环 ”， 在 循环 结尾 处 之 后 也 添加 一 
个 ， 打 出 “退出 循环 ”。 





再 次 运行 程序 。 如 果 你 看 到 第 一 个 输出 ， 而 没有 看 到 第 二 个 ， 说 明 
你 确实 遇 到 一 个 死 循环 了 。 无 限 循环 的 内 容 参 见 20.2.3 节 。 


。 大 部 分 情况 下 ， 无 限 递归 都 会 让 程序 运行 一 会 儿 ， 然 后 产 


生 “RuntimeError: Maximum recursion depth exceeded” 错 误 。 如 果 发 
生 这 种 情况 ， 参 见 20.2.4 节 。 








如 果 你 没有 看 到 这 个 错误 ， 但 怀疑 可 能 是 递归 方法 或 函数 产生 的 问 
题 ， 也 同样 可 以 使 用 20.2.4 节 中 的 技巧 。 


e 如 果 上 面 两 步 都 没 用 ， 尝 试 其 他 循环 或 其 他 递归 方法 与 函数 。 
。 如 果 这 些 都 没 用 ， 说 明 可 能 是 你 没 理解 你 的 程序 的 执行 流程 。 执 行 
流程 的 内 容 参见 20.2.5 节 。 


20.2.3 无限 循 环 
如 果 你 觉得 有 一 个 无 限 循环 并 知道 是 哪个 循环 导致 的 问题 ， 可 以 在 


循环 的 结尾 处 添加 一 个 print 语句 ， 打 印 出 循环 条 件 中 的 变量 值 ， 以 及 
条 件 的 值 。 


例如 : 


while x > @ andy < @: 
# do something to x 
# do something to y 


print('x: ', x) 


print('y: ', y) 
print("condition: ", (x > © and y < @)) 








现在 当 你 再 次 运行 程序 时 ， 能 够 看 到 每 次 循环 中 打印 出 的 3 行 输 
出 。 最 后 一 次 循环 时 ， 条 件 应 该 变 为 False 。 如 果 循 环 一 直 进 行 ， 你 应 
当 可 以 看 到 x My 的 值 ， 并 可 能 和 弄 清楚 为 什么 它们 没有 被 正确 更 新 。 


20.2.4 ERIR 
大 部 分 情况 下 ， 无 限 递归 会 导致 程序 运行 一 会 儿 ， 然 后 产 


生 Maximum recursion depth exceeded 的 错误 。 








如 果 你 怀疑 一 个 函数 导致 了 无 限 递归 ， 保 证 递归 确实 有 一 个 基准 情 
形 。 应 该 有 一 个 条 件 能 导致 施 数 直接 返回 而 不 再 继续 递归 调用 。 如 果 没 
有 ， 那 么 你 可 能 需要 重新 思考 算法 ， 并 定位 一 个 基准 情形 。 








如 果 有 一 个 基准 情形 ， 但 程序 似乎 没有 到 达 它 ， 可 以 在 函数 的 开头 
加 一 个 print 语句 来 打印 参数 。 现 在 当 你 重新 运行 程序 时 ， 会 看 到 每 次 
函数 调用 时 都 会 打出 几 行 输出 ， 并 能 看 到 每 次 调用 的 参数 值 。 如 果 参 数 


并 没有 回 基 准 情 形变 化 ， 你 大 概 能 发 现 为 何如 此 。 


20.2.5 ”执行 流程 





如 果 你 不 确认 程序 中 的 执行 流程 如 何 走向 ， 可 以 在 每 个 函数 的 开头 
添加 一 个 print 语句 ， 打 印 类 似 “ 进 入 函数 foo ”之 类 的 输出 。 这 里 foo 
是 函数 名 。 


现在 如 果 你 重新 运行 程序 ， 它 会 打印 出 每 个 函数 调用 的 轨迹 。 
20.2.6 当 我 运行 程序 ， 会 得 到 一 个 异 管 


如 果 在 运行 时 过 到 一 个 问题 ，Python 会 打印 出 一 个 信息 ， 包 含 错误 
的 名 称 ， 程 序 中 发 生 这 个 错误 的 位 置 ， 以 及 一 个 回溯 。 

回溯 里 标明 了 当前 执行 的 函数 ， 以 及 调用 它 的 函数 ， 以 及 调用 这 个 
调用 者 的 函数 ， 依 此 类 推 。 换 句 话 说 ， 它 回溯 了 从 程序 开 尖 直到 错误 友 
生 所 在 位 置 的 整个 调用 轨迹 ， 包 括 了 每 个 函数 所 在 文件 中 的 行 号 。 





第 一 步 是 检查 程序 中 错误 发 生 的 位 置 ， 并 尝试 弄 清楚 问题 所 在 。 下 
面 是 一 些 第 见 的 运行 时 错误 。 


NamekError 





你 在 试图 使 用 一 个 当前 环境 中 并 不 存在 的 变量 。 检 查 变 量 名 是 人 否 
拼写 正确 ， 或 至 少 是 一 致 。 请 记得 局 部 变量 是 局 部 的 ， 不 能 在 定义 它们 
的 函数 之 外 使 用 。 











TypeError 


有 3 种 可 能 的 原因 。 





。 你 在 尝试 错误 地 使 用 一 个 值 。 例 如 ， 使 用 不 是 整数 的 值 来 索引 字符 
串 、 列 表 或 元 组 。 

。 格式 字符 串 中 ， 内 部 的 格式 项 和 传 入 的 参数 不 匹配 。 当 格式 项 的 数 
目 不 对 或 者 转换 的 类 型 不 对 时 部 可 能 发 生 。 

。 调用 函数 时 使 用 了 错误 数量 的 参数 。 对 于 方法 来 说 ， 奉 看 方法 定义 
并 检查 第 一 个 参数 是 否 为 self 。 接 着 查看 方法 调用 ; 确保 你 是 在 
正确 类 型 的 对 象 上 调用 方法 ， 并 正确 提供 了 其 他 参数 。 


KeyError 


UNTER A AN SE A BER EK FN Oo WR BEF 
符 串 ， 请 注意 大 小 写 问题 。 


AttributeError 





你 在 尝试 访问 一 个 并 不 存在 的 属性 或 方法 。 检 查 拼写 ! 你 可 以 使 用 
内 置 的 vars 函数 来 列 出 存在 的 属性 。 





如 果 AttributeError 指 明 一 个 对 象 是 NoneType ， 则 意味 着 它 是 None 
。 那 么 问题 不 是 属性 名 而 是 对 象 。 





对 象 为 None 的 原因 可 能 是 你 筷 了 从 函数 里 返回 值 ， 如 果 函 数 执行 到 
结尾 都 没有 遇 到 return 语句 ， 那 么 它 会 返回 None 。 另 一 个 常见 的 原因 
是 使 用 了 一 个 返回 None 的 列表 方法 作为 结果 ， 如 sort 。 


IndexError 


你 在 访问 列表 、 字 符 串 或 元 组 时 使 用 的 索引 大 于 它 的 长 度 减 一 。 在 
音 误 发 生 的 前 一 行 ， 添 加 一 个 print 语句 展示 索引 的 值 和 数组 的 长 度 。 
BAK ee BEM? 索引 大 小 是 否 正确 ? 





Python 调试 器 〈pdb ) 在 查找 异常 时 很 有 用 ， 因 为 它 让 你 可 以 在 错 
误 发 生 之 前 的 地 方 查 看 程序 的 状态 。 可 以 在 
http:/docs.python.org/3/library/pdb.html 了 阅读 pdb 的 相关 资料 。 





20.2.7 ”我 添加 了 太 多 print 语句 ， 被 输出 淹没 了 


使 用 print 语句 进行 调试 的 问题 之 一 是 你 可 能 被 太 多 的 输出 所 埋 
没 。 有 两 种 方法 可 以 继续 : 简化 输出 ， 或 者 简化 程序 。 


要 简化 输出 ， 可 以 删除 或 注释 挥 没 用 的 print 语句 ， 或 者 将 它们 合 
并 起 来 ， 或 者 格式 化 输出 让 它们 更 容易 看 懂 。 





要 简化 程序 ， 有 几 件 事情 可 做 。 首 先 ， 简 化 程序 所 处 理 的 问题 。 例 
如 ， 如 果 你 在 搜索 一 个 列表 ， 就 改 为 搜索 一 个 很 小 的 列表 。 如 果 程 序 
从 用 户 获得 输入 ， 则 输入 可 以 产生 错误 的 最 简单 的 输入 。 





其 次 ， 清 理 程序 。 删 除 无 效 代 码 ， 并 重新 组 织 代码 让 它 尽 可 能 更 可 
读 。 例 如 ， 如 宁 你 怀疑 问题 出 在 程序 的 一 个 很 深 的 舱 套 部 分 中 ， 则 应 当 
尝试 重 写 那 部 分 ， 让 它 的 结构 更 简单 。 如 果 你 怀疑 一 个 很 大 的 函数 ， 则 
尝试 将 它 拆 分 为 多 个 更 小 的 函数 ， 并 分 别 测试 它们 。 


找寻 最 简 测试 用 例 的 过 程 往往 能 带 你 找到 问题 所 在 。 如 果 发 现 程序 
在 一 种 情况 下 正常 工作 ， 而 在 兄 一 种 情况 下 则 不 能 ， 那 这 些 情况 本 喘 岗 
给 你 一 些 线索 。 


类 似 地 ， 重 写 一 部 分 代码 可 以 帮 你 找到 细微 的 bug。 如 果 你 做 出 一 
个 认为 不 该 影响 程序 的 改变 ， 而 它 确 实 出 问题 了 ， 这 就 给 了 有 具体 的 提 
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20.3 语义 错误 





从 某 种 角度 看 ， 语 义 错误 更 难 调试 ， 因 为 解释 占 并 不 提供 任何 信 
恩 。 只 有 你 自己 知道 程序 到 底 应 该 上 怎么 做 。 











解决 语义 错误 的 第 一 步 是 在 程序 文本 和 你 看 到 的 程序 行为 之 间 建 立 
一 个 连接 。 你 需要 对 程序 实际 在 做 什么 有 一 个 假设 。 让 这 件 事情 很 难 的 
原因 之 一 是 计算 机 运行 得 太 快 。 














你 常 凋 会 布 望 程序 能 够 减 慢 到 人 的 速度 ， 而 使 用 调试 希 时 你 可 以 做 
到 。 但 往 程 序 里 插入 几 条 精确 放置 的 print 语句 ， 比 起 设置 调试 器 ， 揪 
入 或 删除 断 点 ， 并 * 单 步 ? 执 行 到 程序 出 错 的 地 方 ， 往 往 花费 的 时 间 更 


少 。 


20.3.1 我 的 程序 运行 不 正确 











你 应 该 问 自己 如 下 几 个 问题 。 





。 程序 中 有 没有 地 方 你 期 望 它 去 做 而 实际 上 没有 及 生 的 ? 找到 运行 那 
段 功 能 的 代码 ， 并 确保 它 确 实 如 你 所 期 望 的 那样 运行 了 。 

。 有 没有 一 些 不 应 该 发 生 的 事情 ? 找到 程序 中 运行 了 茶 种 不 该 出 现 的 
功能 的 代码 。 

。 有 没有 一 段 代 码 产 生 的 效果 和 你 所 期 望 的 不 一 致 ?确保 你 完全 明白 








该 段 代 码 ， 特 别 是 当 它 牵涉 到 其 他 Python 模块 的 函数 或 方法 时 。 阅 
读 你 调用 的 函数 的 文档 。 使 用 简单 的 测试 用 例 测 试 它们 并 检 枉 结 
果 。 


为 了 能 够 编程 ， 你 需要 程序 如 何 工 作 的 一 个 思维 模型 。 如 果 编 写 出 
一 段 和 你 预期 不 同 的 代码 ， 常 党 问题 不 是 在 程序 本 映 ， 而 是 在 你 的 中 维 
模型 上 。 





修正 你 的 思维 模型 的 最 佳 方法 是 将 程序 划分 成 不 同 部 分 〈 通 毅 是 函 
数 和 方法 ) 并 独立 测试 每 一 个 部 分 。 一 旦 找到 你 的 模型 和 真实 世界 的 偏 
Zi, WHE WS fF HR [el eT o 

当然 ， 在 开发 程序 时 你 应 当 分 组 件 进行 构建 和 测试 。 如 果 发 现 一 个 
问题 ， 应 该 只 需要 检查 一 小 部 新 的 不 确认 是 否 正确 的 代码 。 
20.3.2 ”我 有 一 个 巳 大 而 复杂 的 表达 式 ， 而 它 和 我 预料 的 不 同 


编写 复杂 的 表达 式 并 没有 问题 ， 只 要 能 保证 它们 还 可 读 。 但 它们 也 
变 得 更 难 调试 。 将 复杂 的 表达 式 拆 分 成 一 系列 的 赋值 到 临时 变量 的 语 


会 
句 ， 背 冲 是 个 好 主意 。 


例如 : 


self.hands[i].addCard(self.hands[self.findNeighbor(i)].popCard()) 





这 个 表达 式 可 以 写作 : 


neighbor = self.findNeighbor (i) 
pickedCard = self.hands[neighbor ].popCard() 


self.hands[i].addCard(pickedCard) 





后 面 更 清晰 的 版 本 也 更 加 可 读 ， 因 为 变量 名 称 提 供 了 附加 的 文档 信 
恩 ， 它 也 更 加 容易 调试 ， 因 为 你 可 以 检查 中 间 变 量 的 类 型 ， 并 打印 它们 
的 值 。 


复杂 表达 式 的 男 一 个 问题 是 求 值 的 顺序 可 能 和 你 所 期 望 的 不 同 。 例 
如 ， 如 果 你 将 表达 式 x /27 翻 译 成 Python， 可 能 会 这 么 写 


dn 


y =X / 2 * math.pi 





这 样 并 不 正确 ， 因 为 乘法 和 除法 有 相同 的 优先 级 ， 并 且 语 句 求 值 的 
顺序 是 从 左 至 右 。 所 以 这 个 表达 式 计算 的 实际 上 古 x Ww2。 











调试 表达 式 的 一 个 好 办 法 是 添加 括号 来 显 式 控制 求 值 顺序 : 


y =x / (2 * math.pi) 





任何 时 候 如 果 不 确定 求 值 的 顺序 ， 都 可 以 使 用 括号 。 这 样 不 但 会 让 
程序 更 加 正确 《从 按照 你 的 设想 来 做 的 角度 说 ) ， 也 会 让 其 他 人 更 容易 





阅读 你 的 代码 ， 因 为 不 需要 去 记忆 操作 的 顺序 。 


20.3.3 ”我 有 一 个 函数 ， 返 回 值 和 预期 不 同 

如 果 你 在 程序 中 有 return 语句 返回 一 个 复杂 的 表达 式 ， 则 没有 机 
会 在 返回 之 前 打印 结果 。 这 时 候 ， 也 可 以 使 用 临时 变量 。 例 如 ， 这 个 语 
Al 





return self.hands[i].removeMatches() 





可 以 写作 : 


count = self.hands[i].removeMatches() 
return count 





现在 你 有 机 会 在 返回 之 前 显示 count 的 值 了 。 





20.3.4 ”我 真 的 真 的 卡 住 了 ， 我 需要 帮助 


首先 ， 试 着 离开 计算 机 几 分 钟 。 计 算 机 会 发 射 辐射 影响 大 脑 ， 产 生 
下 列 症状 。 





。 PENRI. 

。 迷信 的 信念 (“我 的 计算 机 恨 我 *) 和 神奇 的 想法 (“程序 只 有 在 我 
反 戴 帽子 时 才 正 确 运 行 >) 。 

。 随机 行走 编程 (尝试 着 写 下 所 有 可 能 的 程序 ， 并 选择 运行 正确 的 那 


Ae 








如 果 你 发 现 目 己 正在 遭受 这 些 症状 之 一 ， 请 马上 站 起 来 出 去 散 个 
步 。 当 你 平静 下 来 后 ， 再 思考 程序 。 它 在 做 什么 ? 产生 那 种 行为 的 可 能 
原因 有 哪些 ? 上 一 次 程序 还 正确 运行 是 什么 时 候 ， 之 后 你 做 了 什么 ? 














有 时候 发 现 一 个 bug 确 实 需 要 时 间 。 我 常常 能 够 在 远离 计算 机 并 让 
思维 休 明 之 后 找到 bug。 找 到 错误 的 最 佳 地 点 有 火车 上 、 浴 全 中 及 将 要 
入 睡 之 前 在 床上 。 

20.3.5 不行， 我 真 的 需要 帮助 


这 种 事 确 实 会 发 生 。 即 使 最 好 的 程序 员 也 会 偶尔 卡 住 。 有 时 候 你 在 
一 段 程序 上 工作 太 久 了 所 以 反而 看 不 到 错误 。 你 需要 一 双 新 的 眼睛 。 








在 叫 人 帮忙 之 前 ， 请 确保 你 已 经 准备 好 。 你 的 程序 应 当 尽 量 简单 ， 
而 你 应 当 使 用 最 小 的 输入 来 复 现 错误 。 你 应 当 在 合适 的 地 方 放 好 了 
print 语句 《并 且 它 们 的 输出 应 当 容 易 理 解 〉》。 你 应 当 足 够 理解 这 个 问 
题 ， 因 此 能 够 简明 扼要 地 描述 它 。 





当 你 找 人 帮忙 时 ， 请 确保 给 他 们 需要 的 信息 。 





。 如 末 有 错误 信息 ， 它 是 什么 ， 它 代表 了 程序 的 哪 部 分 ? 

。 在 这 个 错误 发 生 之 前 ， 你 做 的 最 后 一 件 事情 是 什么 ?你 写 的 最 后 一 
段 代码 是 什么 ”失败 的 新 测试 用 例 是 什么 ? 

。 目前 为 止 你 做 了 哪些 尝试 ， 并 从 中 得 到 了 什么 ? 











当 你 找寻 bug 时 ， 思 考 一 下 如 何 做 才能 找 得 更 快 。 下 一 次 见 到 类 似 
的 情形 时 ， 就 能 够 更 快 地 找到 问题 了 。 


wie, 














目标 不 只 是 让 程序 正确 运行 。 目 标 是 学 会 如 何 让 程序 正确 运 


Alles BYE AT 





1X Bae 426 AO’ Reilly Media 出 版 的 Allen B. Downey 的 Think 
Complexity (2012) 一 书 。 当 你 读 完 本 书 之 后 ， 可 能 会 想 继续 读 那 本 
“ite 





算法 分 析 是 计算 机 科学 的 一 个 分 文 ， 研 完 算 法 的 性 能 ， 尤 其 是 它 
们 的 运行 时 间 和 空间 需求 。 参 见 
http://en.wikipedia.org/wiki/Analysis_of_algorithms. 


算法 分 析 的 实践 目标 是 预测 不 同 算法 的 性 能 ， 以 便于 指导 设计 决 
Wo 





在 2008 年 的 美国 总 统 大 选中 ， 候 选 人 巴 拉 克 :奥巴马 在 访问 Google 
公司 时 被 要 求 做 一 个 即兴 分 析 。Google 的 首席 执行 官 埃 里 克 : 施 密 特 问 
他 “给 100 万 个 32 位 整数 排序 的 最 高 效 算法 ”是 什么 。 奥 巴 马 显然 被 提示 
了 ， 因 为 他 马上 回答 , “我 觉得 冒 泡 排序 可 能 是 错误 的 做 法 ”。 参 见 
http://bit.ly/IMpIwTf. 




















ZERK: 冒 泡 排 序 在 概念 上 很 简单 ， 但 对 于 大 数据 量 的 排序 很 
慢 。 施 密 特 想得到 的 答案 可 能 是 “基数 排 


Fe” Chttp://en.wikipedia.org/wiki/Radix_sort) [1 。 





算法 分 析 的 目标 是 在 不 同 算法 间 做 出 有 意义 的 比较 ， 但 也 有 一 些 问 


算法 的 相对 性 能 可 能 依赖 于 硬件 的 特征 ， 所 以 一 个 算法 可 能 在 机 器 
A 上 更 快 ， 必 一 个 在 机 器 B 上 更 快 。 这 个 问题 的 通用 解决 方法 是 先 
指定 一 个 机 器 模型 ， 并 分 析 在 一 个 指定 的 机 需 模 型 中 一 个 算法 需 
要 执行 的 步骤 或 操作 。 

相对 性 能 还 可 能 依赖 于 数据 集 的 细节 特征 。 例 如 ， 有 的 排序 算法 在 
数据 已 经 是 部 分 排序 的 情形 下 比 其 他 算法 更 快 ， 有 的 程序 在 这 种 情 
况 下 反而 慢 。 避 免 这 个 问题 的 通常 办 法 是 分 析 最 坏 情况 场景 。 有 
时 候 分 析 平 均 情况 的 性 能 也 有 用 ， 但 也 通常 会 更 难 ， 因 为 有 哪些 情 
形 可 以 用 来 “平均 ”往往 并 不 明显 。 

相对 性 能 也 依赖 于 问题 的 规模 。 对 小 序列 更 快 的 排序 算法 可 能 对 大 











序列 就 慢 了 。 这 个 问题 的 通常 解决 方案 是 用 一 个 问题 规模 的 函数 来 
表达 运行 时 间 (或 操作 数 ) ， 并 根据 问题 规模 增 大 的 速度 将 函数 进 


行 归 类 。 


这 种 比较 的 好 处 之 一 是 自然 而 然 地 可 以 将 算法 进行 简单 地 分 类 。 例 
如 ， 如 果 我 知道 算法 A 的 运行 时 间 趋 回 于 和 输入 的 规模 n 成 比例 ， 而 算 
法 B 趋 向 于 和 n “成 比例 ， 那 么 我 会 预期 至 少 对 于 大 的 n 值 ， 算 法 A 比 算 
法 B 快 。 


这 种 分 析 也 有 需要 注意 的 地 方 ， 后 面 会 谈 到 。 
21.1 增长 量 级 
假设 你 需要 分 析 两 个 算法 ， 并 依照 输入 的 规模 来 表达 它们 的 运行 时 


间 : 算法 A 需要 100n +1 步 来 解决 规模 为 n 的 问题 ， 算 法 B 需 要 n“+n+1 
步 。 





下 面 的 表格 显示 了 这 两 个 算法 在 不 同 的 问题 规模 下 的 运行 时 间 : 


asainn siero 








在 n =10 时 ， 算 法 A 看 起 来 很 差 ， 它 几乎 需要 10 倍 于 算法 B 的 时 间 。 
但 对 于 n =100 来 说 它们 就 已 经 差不多 了 ， 而 在 更 大 的 规模 时 ， 算 法 A 远 
好 于 算法 B。 











这 里 根本 的 原因 在 于 对 很 大 的 n 值 ， 任 何 包含 n“ 项 的 函数 都 会 比 首 
古 n 的 函数 增长 快速 很 多 。 首 项 是 一 个 多 项 式 中 最 高 次 方 的 项 。 








对 于 算法 A， 首 项 有 一 个 很 大 的 系数 100， 因 此 算法 B 在 小 的 n 时 比 
算法 A 快 。 但 不 论 系 数 是 多 少 ， 总 有 一 个 n 值 会 导致 an“> bn 。 








对 于 非 首 项 来 说 也 如 此 。 即 使 算法 A 的 运行 时 间 是 n +1000000， 对 
于 足够 大 的 mn ， 仍 然 会 比 算法 B 快 。 





总 的 来 说 ， 我 们 预期 有 更 小 的 首 项 的 算法 对 大 规模 问题 来 说 是 更 好 
的 算法 。 但 对 于 小 一 些 的 问题 来 将， 可 能 存在 一 个 交叉 点 ， 那 里 其 他 


算法 可 能 更 好 。 区 叉 点 的 位 置 取决 于 算法 的 细节 、 输 入 以 及 硬件 的 条 
件 ， 所 以 在 算法 分 析 时 营 常 被 忽略 挥 。 但 那 并 不 意味 着 你 可 以 息 记 它 。 





如 果 两 个 算法 有 相同 的 首 项 ， 则 很 难说 哪 一 个 更 好 ;同样 地 ， 答 案 
也 取决 于 细节 条 件 。 所 以 对 于 算法 分 析 来 说 ， 首 项 相同 的 函数 被 认为 是 
同等 的 ， 即 使 它们 的 系数 不 同 。 





增长 量 级 就 是 各 种 增长 行为 被 认为 是 同等 的 函数 的 集合 。 例 如 ， 
2n 、100n Mn +1 都 是 一 个 增长 量 级 ， 用 大 O 标 记 法 写作 O (n )， 通 常 称 
为 线性 的 ， 因 为 这 个 集合 中 的 每 个 函数 都 依据 n 线性 增长 。 


所 有 首 项 是 n“ 的 函数 都 属于 O (n“)， 它 们 被 称 为 是 平方 的 。 





下 面 的 表格 显示 了 算法 分 析 中 大 部 分 最 常见 的 增长 量 级 ， 按 照 更 坏 
的 程度 递增 : 











O(n?) 立方 级 


指数 级 《底数 c (EE) 





对 于 对 数 项 ， 后 数 并 没有 影响 ， 修 改 乓 数 相当 于 乘 以 一 个 闸 量 ， 而 
那样 并 不 影响 增长 量 级 。 类 似 地 ， 所 有 的 指数 函数 都 古 同一 个 增长 量 
级 ， 不 论 指数 的 底数 是 什么 。 指 数 函 数 增 长 非常 迅速 ， 所 以 指数 级 算法 
只 在 小 规模 问题 中 应 用 。 


练习 21-1 


在 http:/en.wikipedia.org/wiki/Big_O_notation 上 阅读 大 0 标记 法 的 维 
基 上 百科 页 面 ， 并 回答 下 列 问题 。 


1. mn3+n2 的 增长 量 级 是 多 少 ? 1000000n 2+ n2 WE? n? + 1000000: 
呢 ? 


2. (n“+n)(n+1) 的 增长 量 级 是 多 少 ? 在 相 乘 之 前 ， 请 记 住 你 只 需 
要 首 项 。 


3. WARP 是 O (9 )， 对 于 未 指定 的 函数 g ， 我 们 怎么 说 af+b ? 
4. 如 果 f 1 和 f, BEO (g) BAS, +f 2 呢 ? 
5. WAS, 是 O (g ) 而 fs 是 O (h), AAP, +f ME? 


6. WIRE 4 是 O (g ) 而 f > zO (h), 那么 fj fo He? 





KUFE PE BG AY BEF Ze IR DT TRE AT 


理 : 有 时 候 系 数 和 非 痢 项 也 能 带 来 不 同 。 有 时 候 人 硬件 的 细节 、 编 程 语 
言 ， 以 及 输入 的 特征 ， 都 能 带 来 很 大 的 区 别 。 并 且 对 于 小 规模 问题 来 
说 ， 渐 进行 为 是 无 关 要 紧 的 。 











但 如 果 在 脑 中 记者 这 些 需 要 注意 的 要 点 的 话 ， 算 法 分 析 毕 竟 是 一 个 
有 用 的 工具 。 人 至 少 对 于 大 规模 问题 来 说 , “更 好 ”的 算法 往往 确实 更 好 ， 
并 且 有 时 候 它 会 好 得 多 。 两 个 增长 量 级 相同 的 算法 的 区 别 往往 是 一 个 
常量 值 ， 但 一 个 好 算法 和 一 个 坏 算 法 的 差距 是 没有 界限 的 ! 





21.2 ”Python 基本 操作 的 分 析 


在 Python 中 ， 大 部 分 算术 操作 都 是 常量 时 间 的 ;乘法 通 冲 比 加 法 和 
减法 花费 更 多 时 间 ， 而 除法 人 花费 的 更 多 ， 但 这 些 操作 的 时 间 与 参数 的 大 
小 无 天。 特别 大 的 整数 是 一 个 例外 ， 在 那 种 情况 下 ， 运 行 时 间 随 着 数字 
的 位 数 增加 而 增加 。 





索引 操作 一 一 在 序列 或 字典 中 读 写 元 系 一 一 也 是 常量 时 间 的 ， 与 数 
所 结构 的 规模 无 天。 


思 历 一 个 序列 或 字典 的 for 循环 通 音 是 线性 的 ， 只 要 循环 体内 的 操 
作 本 身 是 间 量 级 。 例 如 ， 将 一 个 列表 的 元 素 相 加 古 线性 的 : 











内 置 函 数 sum 也 是 线性 的 ， 因 为 它 做 相同 的 事情 。 但 它 趋 向 于 更 快 
些 ， 因 为 实现 得 更 高 效 ; 用 算法 分 析 的 语言 来 说 ， 就 是 它 有 一 个 更 小 的 
首 项 系数 。 


作为 一 个 经 验 规则 ， 如 宋 循 环 体 的 增长 量 级 是 O (na ) 则 整个 循环 
是 O(n? 站)。 例 外 情况 是 当 你 能 够 证 明 循环 在 一 个 常量 数 的 迭代 之 后 就 
能 退出 。 如 果 不 论 n 是 多 少 ， 循 坏 只 最 多 运行 k 次 ， 则 即使 对 很 大 的 k 来 
说 ， 整 个 循环 的 增长 量 级 还 是 O (n? )。 


乘 以 K 并 不 会 改变 增长 量 级 ， 而 除法 也 不 会 。 所 以 ， 如 果 一 个 循环 
体 的 增长 量 级 是 O (n"), AA EIST Wk 次 ， 即 使 对 很 大 的 K 来 说 ， 整 个 
循环 的 增长 量 级 也 仍然 是 O (n? 二 )。 





大 部 分 字符 串 和 元 组 操作 都 是 线性 的 ， 只 有 下 标 访 问 和 len 函数 例 
外 ， 它 们 是 常量 级 时 间 的 。 内 置 函 数 min 和 max 是 线性 的 。 切 片 操作 的 
运行 时 间 与 输出 的 长 度 成 正比 ， 而 与 输入 的 长 度 无 关 。 








字符 串 拼 接 是 线性 的 ， 它 的 运行 时 间 与 操作 数 的 长 上 度 的 总 和 有 关 。 


所 有 的 字符 串 方 法 都 是 线性 的 ， 但 如 果 字 符 串 的 长 度 受 限 于 一 个 常 
量 〈 例 如 ， 在 只 有 一 个 字符 的 字符 串 的 操作 ， ， 可 以 看 作 是 向 量 的 。 字 
符 串 方法 join 是 线性 的 ， 它 的 运行 时 间 与 字符 串 的 总 长 度 有 关 。 


大 多 数列 表 方 法 是 线性 的 ， 但 也 有 一 些 例外 。 











。 在 列表 结尾 处 添加 一 个 元 素 的 操作 平均 来 说 是 常量 时 间 的 ， 当 它 空 
间 不 足 时， 偶尔 会 复制 到 另 一 个 更 大 的 地 方 ， 但 总 的 mn 次 操作 的 时 
间 量 级 是 O (n )， 所 以 每 次 操作 的 平均 时 间 是 O (1). 


© 从 列表 结尾 删除 一 个 元 素 的 操作 是 常量 时 间 的 。 
。 排序 的 量 级 是 O (n logn )。 


大 部 分 字典 操作 和 方法 部 是 常量 时 间 的 ， 但 也 有 一 些 例外 。 


。 update 的 运行 时 间 和 作为 参数 传 入 的 字典 的 大 小 成 比例 ， 而 不 是 
被 更 新 的 字典 本 身 。 

e keys, values 和 items 都 是 常量 时 间 ， 因 为 它们 返回 的 是 迭代 
fro (Axe, MIRA WIR IRAE, WGA AEA PER « 





字典 的 效率 是 计算 机 科学 的 一 个 小 奇迹 。 我 们 会 在 21.4 市 中 介绍 它 
是 如 何 工作 的 。 


练习 21-2 


在 http:/en.wikipedia.org/wiki/Sorting_algorithm 阅 读 排序 算法 的 维基 
百科 页 面 并 回答 下 列 问 题 。 








1. 什么 是 “比较 排序 *”? 比较 排序 的 最 坏 情况 的 增长 量 级 最 好 是 什 
么 ? 任何 排序 算法 中 ， 最 坏 情 况 的 增长 量 级 最 好 是 多 少 ? 











2， 冒 泡 排序 的 增长 量 级 是 多 少 ? 为 什么 奥巴马 认为 它 是 “错误 的 做 
法 ”? 





3. 基数 排序 的 增长 量 级 是 多 少 ? 要 使 用 它 ， 我 们 需要 哪些 前 置 条 








4. 稳定 排序 是 什么 ， 为 什么 在 实践 中 它 很 重要 ? 


5. 最 差 的 《有 名 字 的 ) 排序 算法 是 什么 ? 


6. C 语 言 库 里 用 的 排序 算法 是 什么 ? Python 里 用 的 是 什么 ? 这 些 算 
法 稳定 吗 ? 你 可 能 需要 去 Google 搜 索 这 些 答案 。 





7. 很 多 非 比较 排序 都 是 线性 的 ， 那 么 为 什么 Python 会 使 用 O (n logn 
) 的 比较 排序 呢 ? 


21.3 ”搜索 算法 的 分 析 


搜索 是 一 种 算法 ， 接 收 一 个 集合 和 一 个 上 日 标 元 素 ， 并 决定 这 个 元 
素 是 否 在 集合 中 ， 通 第 返回 元 系 的 索引 。 





最 简单 的 搜索 算法 是 “线性 搜索 *， 即 按 顺序 遍历 集合 的 每 一 个 元 
素 ， 直 到 找到 目标 元 素 为 止 。 在 最 坏 的 情况 下 ， 它 会 遇 历 整个 集合 ， 所 
以 运行 时 间 是 线性 的 。 


序列 的 in 操作 符 使 用 一 个 线性 搜索 ， 字 符 串 方 法 find 和 count 也 
是 这 样 。 


如 果 序 列 中 的 元 素 是 排 好 序 的 ， 可 以 使 用 二 分 碍 找 ， 它 的 增长 量 
级 是 O (log n )。 二 分 查找 和 在 字典 (真实 的 字典 ， 而 不 是 那个 数据 结 
H) 中 全 找 单词 的 算法 类 似 。 不 像 普通 搜索 那样 从 第 一 个 元 条 开始， 它 
是 从 序列 的 中 间 开 始 ， 检 查 要 但 找 的 词 是 在 中 间 的 元 系 之 前 还 是 之 后 。 
如 条 在 之 前 ， 则 继续 碍 找 序列 的 前 半 段 ， 人 否则 奉 找 后 半 段 。 不 论 哪 种 情 
况 ， 都 可 以 将 碍 找 的 数量 减少 一 半 。 


如 果 序 列 有 1 000 000 个 元 素 ， 大 概 需 要 花 20 个 步骤 找到 单词 或 者 发 
现 它 不 存在 。 所 以 那样 会 比 线性 查找 快 大 概 50 000 倍 。 


二 分 查找 可 以 比 线性 奏 找 快 很 多 ， 但 需要 序列 本 身 是 排 好 序 的 ， 也 
就 需要 一 些 额外 工作 。 


有 男 一 个 数据 结构 ， 称 为 散 列 表 (hashtable〉， 它 甚至 更 快 一 一 它 
可 以 用 和 常量 时 间 来 搜索 一 而 且 不 需要 元 素 是 排 好 序 的 。Python 字 典 是 
使 用 散 列 表 实 现 的 ， 因 此 大 部 分 字典 操作 ， 包 括 in 操作 符 ， 都 是 常量 
时 间 的 。 





21.4” 散 列表 


为 了 解释 散 列 表 的 工作 机 制 以 及 为 何 它 的 效率 如 此 好 ， 我 们 先 从 一 
个 简单 的 映射 实现 开始 ， 并 逐步 改善 它 ， 直 到 成 为 一 个 散 列 表 。 





我 使 用 Python 来 展示 这 些 实现 。 但 真实 世界 中 ， 你 不 需要 用 Python 





写 这 样 的 代码 ， 你 只 需要 直接 使 用 字典 即 可 ! 所 以 本 章 中 剩 下 的 部 分 ， 
你 需要 想象 字典 并 不 存在 ， 而 你 需要 实现 一 个 数据 结构 将 键 映 射 到 值 。 
你 需要 实现 的 操作 有 以 下 几 个 。 

add(k, v) 


添加 一 个 新 项 ， 将 键 k 映射 到 值 v 。 在 Python 字典 d 中 ， 这 个 操作 
写作 d[k] = v 。 


get(k) 


根据 键 k 查找 对 应 的 值 。 在 Python 字典 d 中 ， 这 个 操作 写作 d[k] 
Md.get(k) 。 


就 现在 来 说 ， 我 假设 每 个 键 只 出 现 一 次 。 最 简单 的 实现 是 使 用 一 个 
元 组 列表 ， 每 个 元 组 是 一 个 键 值 对 : 





class LinearMap: 


def init_ _(self): 


self.items = [] 


def add(self, k, v): 
self.items.append((k, v)) 


def get(self, k): 
for key, val in self.items: 
if key == k: 
return val 
raise KeyError 





add 往 元 组 列表 中 添加 一 项 ， 这 个 操作 是 常量 时 间 的 。 


get 使 用 一 个 for 循环 来 搜索 列表 : 如 果 找 到 了 目标 键 ， 则 返回 对 
应 的 值 ， 否 则 抛 出 KeyError 。 所 以 get 是 线性 的 。 


另 一 个 方案 是 让 列表 按照 键 来 排序 。 这 样 get WERT DAE AY or 
找 ， 其 增长 量 级 是 O (logn )。 但 插入 一 个 新 项 到 列表 中 间 是 线性 的 ， 所 
以 这 可 能 也 不 是 最 好 的 选择 。 也 有 数据 结构 可 以 用 对 数 时 间 实 现 add 和 
get ， 但 那 仍然 没有 弟 量 时 间 好 ， 所 以 我 们 继续 。 





改善 LinearMap 的 方法 之 一 是 将 键 值 对 的 列表 拆 分 成 更 小 的 列表 。 


下 面 是 一 个 称 为 BetterMap 的 实现 ， 它 是 一 个 包含 100 个 LinearMap 的 列 
表 。 我 们 接 下 来 会 看 到 ，get 的 增长 量 级 仍然 是 线性 的 ， 但 
是 BetterMap 离散 列表 更 近 了 一 步 。 


class BetterMap: 


def __init_ (self, n=10@0): 
self.maps = [] 
for i in range(n): 
self.maps.append(LinearMap() ) 


def find_map(self, k): 
index = hash(k) % len(self.maps) 
return self.maps[ index ] 


def add(self, k, v): 
m = self.find_map(k) 
m.add(k, v) 


def get(self, k): 
m = self.find_map(k) 
return m.get(k) 





_ init _ 创建 由 n 个 LinearMap 组 成 的 列表 。 


find_map ‘add 和 get 调用 ， 用 来 确定 用 哪个 映射 来 保存 新 项 ， 
或 者 到 哪个 映射 里 去 搜索 。 


find_map 使 用 了 内 置 函数 hash ， 它 接收 几乎 所 有 的 Python 对 象 ， 
并 返回 一 个 整数 。 这 个 实现 的 限制 之 一 是 它 只 对 可 散 列 的 键 类 型 可 用 。 
可 变 类 型 ， 如 列表 和 字典 ， 是 不 可 散 列 的 。 





两 个 认为 相等 的 可 散 列 对 象 会 返回 相同 的 散 列 值 ， 但 反 过 来 并 不 一 





定 是 真 : 两 个 具有 不 同 值 的 对 象 可 以 返回 相同 的 散 列 值 。 


find_map 使 用 求 余 操 作 符 来 将 散 列 值 封装 到 0 到 len(self.maps ) 
的 范围 中 ， 这 样 结果 是 列表 的 一 个 合法 索引 。 当 然 ， 这 意味 着 很 多 不 同 
的 散 列 值 会 封装 到 同一 个 索引 上 。 但 如 散 列 函 数 将 对 象 分 配 地 很 均匀 
《这 也 是 散 列 函数 设计 的 目标 ) ， 那 么 我 们 预计 每 个 LinearMap 有 m /100 
个 项 。 





因为 LinearMap .get 的 运行 时 间 是 和 其 包含 的 项 数 成 比例 的 ， 所 
以 我 们 预计 BetterMap 会 比 LinearMap 快 100 倍 。 增 长 量 级 仍然 是 线性 ， 
但 首 项 系数 更 小 。 这 很 好 ， 但 仍然 不 如 散 列 表 好 。 


TE (AP) 是 让 散 列 表 能 变 快 的 关键 原因 : 如 果 你 能 保证 
LinearMap 的 长 度 有 限 ，LinearMap.get 则 会 是 常量 时 间 。 你 需要 做 的 
只 是 记录 元 素 的 总 数 ， 并 当 每 个 LinearMap 的 大 小 超过 一 个 浆 值 时 ， 重 
新 划分 散 列 表 ， 添 加 更 多 的 LinearMap。 





下 面 是 一 个 散 列 表 的 实现 : 





class HashMap : 


def _ _init_ _(self): 
self.maps = BetterMap(2) 
self.num = 6 


def get(self, k): 
return self.maps.get(k) 


def add(self, k, v): 
if self.num == len(self.maps.maps): 
self.resize() 


self.maps.add(k, v) 
self.num += 1 


def resize(self): 
new_maps = BetterMap(self.num * 2) 


for m in self.maps.maps: 
for k, v in m.items: 


new_maps.add(k, v) 


self.maps = new_maps 





每 个 HashMap 都 包含 一 个 BetterMap; _ init _ 从 2 个 LinearMap 





开始 ， 并 初始 化 num ， 它 会 用 来 记录 总 的 项 数 。 


get 只 需要 分 配 到 对 应 的 BetterMap 。 真 正 的 工作 都 发 生 在 add 
中 ， 它 会 检查 项 数 和 BetterMap 的 大 小 如 果 相 等 ， 那 么 每 个 
LinearMap 的 平均 项 数 是 1， 所 以 它 调用 resize 。 





resize 创建 一 个 新 的 BetterMap ， 比 之 前 大 一 倍 ， 并 将 旧 有 的 映 
射 中 的 项 “重新 散 列 * 到 新 的 映射 中 。 


重新 散 列 是 有 必要 的 ， 因 为 LinearMap 的 数量 的 改变 ， 导 致 
find_map 的 求 余 操作 符 的 分 母 改变 。 也 就 是 说 ， 有 些 原先 会 散 列 到 同 
一 个 LinearMap 的 项 会 分 配 到 不 同 的 LinearMap 中 〈 这 也 是 我 们 想 要 的 ， 
对 吧 ? ) 。 





重新 散 列 是 线性 的 ， 所 以 resize 是 线性 的 ， 看 起 来 可 能 不 好 ， 因 
为 我 保证 过 add 应 当 是 常量 时 间 的 。 但 请 记得 我 们 并 不 是 每 次 都 需要 进 
行 resize ， 所 以 add 通常 是 常量 时 间 的 ， 只 是 侦 尔 会 线性 。add 运行 n 
次 的 总 时 间 是 和 n 成 比例 的 ， 因 此 每 次 调用 add 的 平均 时 间 是 常量 时 











间 ! 


要 明日 散 列 表 如 何 工 作 ， 考 虑 从 一 个 空 的 HashTable 开 始 ， 并 添加 
一 些 项 。 我 们 从 2 个 LinearMap 开 始 ， 所 以 最 开始 两 个 add 会 很 快 〈 不 需 
要 resize ) 。 我 们 说 它们 每 次 花费 一 单位 的 工作 量 。 下 一 个 add 会 需 
要 resize ， 所 以 我 们 需要 重新 散 列 前 两 项 (我 们 说 这 需要 再 加 2 个 单位 
的 工作 量 〉 并 添加 一 个 新 项 (再 加 1 个 单位 ，。 再 添加 一 项 花费 1 单位 ， 
所 以 至 今 为 止 是 4 项 花费 了 6 个 单位 的 工作 。 


下 一 个 add 需要 5 个 单位 ， 但 接着 的 3 个 都 只 需要 1 个 单位 ， 所 以 总 
共 是 8 项 花费 了 14 单 位 。 





再 下 一 个 add 需要 9 个 单位 ， 但 接着 我 们 可 以 在 再 次 resize 之 前 添 
加 7 项 ， 所 以 总 共 是 16 个 add 花费 了 30 单 位 。 


在 32 个 add 时 ， 总 共 的 花费 是 62 单 位 ， 而 我 希望 你 已 经 开始 看 到 其 
中 的 模式 了 。 在 n 个 add 之 后 ， 假 设 n 是 2 的 乘 方 ， 总 的 花费 是 2n -2 单 
位 ， 所 以 平均 每 个 add 的 工作 量 是 稍微 小 于 2 个 单位 的 。 当 mn 是 2 的 乘 方 
时 ， 这 是 最 好 情况 ， 对 于 其 他 的 n 值 ， 平 均 工 作 量 稍 高 一 点 ， 但 这 并 不 
重要 。 重 要 的 是 这 是 O (1)。 








图 21-1 用 图 形 化 的 方式 展示 了 这 个 过 程 。 每 个 方块 代表 一 个 单位 的 
工作 量 。 每 一 列 显 示 每 个 add 的 工作 量 : 从 左 到 右 ， 前 两 个 add 人 花费 1 
单位 ， 第 三 个 花费 3 单位 ， 等 等 。 
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图 21-1 AL Readd MH FE 





多 余 的 重新 散 列 的 工作 看 起 来 像 一 序列 不 断 增高 的 塔 ， 之 间 的 间 陋 
越 来 越 远 。 现 在 如 果 你 将 塔 推倒 ， 将 resize HERI A add 操 
EE, wie Ain 个 add 之 后 总 的 花费 是 2n -2。 


这 个 算法 的 一 个 重要 特点 是 当 我 们 调整 HashTable 的 大 小 时 ， 它 会 
几何 增长 ， 也 就 是 ， 我 们 乘 以 一 个 常量 到 大 小 上 。 如 果 算 术 地 增加 大 小 
每 次 添加 固定 数量 的 数 一 一 那么 每 个 add 的 平均 时 间 是 线性 的 。 





可 以 从 http://thinkpython2.com/code/Map.py 下 载 我 的 HashMap 实 现 ， 
但 请 记 住 并 没有 使 用 它 的 理由 。 如 果 需 要 一 个 映射 ， 直 接 用 Python 字典 
BPEJ. 


21.5 ARE 





算法 分 析 (analysis of algorithms) : 通过 对 比 运行 时 间 以 及 /或 者 
空间 需求 来 对 比 算法 的 方法 。 





机 器 模型 (machine model) : 用 于 描述 算法 的 简化 的 计算 机 表示 
Teac 








最 坏 情 况 (worst case) : 让 指定 算法 运行 最 慢 〈( 或 者 需要 最 多 空 
间 的 〉 的 输入 。 





首 项 (eading term) : 在 多 项 式 中 ， 指 数 最 高 的 项 。 








交叉 点 (crossover point) : 两 个 算法 需要 相同 的 运行 时 间或 空间 
的 问题 规模 。 


增长 量 级 Corder of growth) : ee id 如 果 我 们 认为 一 组 
函数 的 增长 速度 可 以 看 作 相 等 ， 则 将 这 组 函数 称 为 同一 个 增长 量 级 的 。 
例如 ， 所 有 线性 增长 的 函 wa 


大 0 表示 法 (Big-Oh notation) : 表达 增长 量 级 的 方法 。 例 如 ，O 
(n ) 表 示 所 有 线性 增长 的 函数 集合 。 








线性 〈linear) : 运行 时 间 和 问题 规模 《人 至少 对 于 大 规模 来 说 ) 成 
正比 的 算法 。 


平方 量 级 (quadratic) : 运行 时 间 和 n。“ 成 正比 的 算法 ， 其 中 n 指 的 
是 问题 规模 。 





搜索 (search) : 定位 集合 (如 列表 或 字典 ) 中 某 个 元 素 或 者 判定 
它 不 在 其 中 的 问题 。 


散 列 表 (hashtable〉: 一 种 表示 键 值 对 集合 且 搜 索 是 闸 量 级 的 数据 
结构 。 





[1] 但 如 果 你 在 面试 时 被 问 到 这 个 问题 ， 我 觉得 更 好 的 答案 是 :“ 给 100 


万 个 数 排序 的 最 快 算法 应 当 是 使 用 我 用 的 语言 提供 的 排序 函数 。 它 的 性 
能 应 当 对 绝 大 多 数 应 用 都 足够 好 了 ， 但 如 果 发 现 我 的 程序 太 慢 ， 我 会 使 
用 一 个 性 能 分 析 器 去 得 看 时 间 花 在 哪里 。 如 果 看 起 来 更 快 的 排序 算法 会 
市 来 明显 的 提升 ， 那 我 会 去 寻找 一 个 基数 排序 的 民 好 实现 。” 





译 后 记 





《 像 计算 机 科学 家 一 样 思考 》 这 一 系列 书 ， 早 有 耳闻 ， 和 它 可 谓 开 创 
了 程序 设计 入 门 书 的 一 个 新 思路 。 授 人 以 鱼 ， 不 在 授 人 以 渔 : 教 人 编 
程 ， 不 如 引导 人 思考 ; ARS, NTH St. MA 
Python 语言 之 后 ， 得 到 的 《 像 计 算 机 科学 家 一 样 思考 Python》 这 本 书 ， 
则 是 在 这 个 思路 上 走 到 了 一 个 极致 的 佳作 。 








我 是 工作 之 后 才 开 始 接触 Python 的 。 在 那 之 前 一 直 使 用 C/C++、 
Java、C# 等 传统 风格 的 语言 ， 再 看 到 Python， 不 免 有 耳目 一 新 之 感 。 为 
何以 往 觉 得 星 深 难 懂 的 程序 设计 理念 ， 在 Python 中 却 表达 得 这 么 简洁 易 
E? 为 何以 往 需 要 绞 尺 脑汁 才能 拼 出 来 的 大 段 代 码 ， 在 Python 里 却 只 需 
要 几 个 简单 调用 即 可 ?为何 繁 复 的 集合 操作 ， 在 Python 中 却 只 需要 一 行 
列表 理解 循环 语句 就 完成 了 ? 为 何 Python 的 文档 那么 容易 找 ， 还 可 以 使 
用 交互 模式 轻松 尝试 ? 每 次 使 用 Python 编写 程序 之 后 ， 总 会 感慨 ， 当 初 
初学 程序 设计 语言 的 时 候 ， 如 果 教 的 是 Python 该 多 好 。 相 信 所 有 学 过 
C/C++ 之 后 再 接触 Python 这 类 语言 的 人 ， 都 会 有 相同 的 感受 吧 。 





那么 是 什么 原因 让 C/C++ 几乎 芍 断 了 程序 设计 语言 的 教材 呢 ? 我 党 
得 更 多 的 是 历史 惯性 。 在 计算 机 科学 教育 开始 普及 的 20 世 纪 70、80 年 
代 ，C 语 言 正 在 其 易 盛 时 期 ， 几 乎 所 有 的 人 都 在 用 C 开 发 程序 ， 操 作 系 
统 、 软 件 、 游 戏 几 乎 都 是 用 C 甚 至 汇编 开发 的 。 人 硬件 性 能 的 限制 ， 让 那 
些 更 抽象 、 更 高 阶 的 语言 ， 无 法 普及 开 来 。 因 此 教学 目 然 也 使 用 它 。 久 
而 久之 形成 了 惯性 ， 到 了 新 世纪 ， 程 序 设 计 的 教学 已 经 赶不上 语言 发 展 





的 潮 沪 了。 我们 的 程序 越 来 越 复 杂 ， 越 来 越 像 人 脑 ， 而 教学 的 语言 仍然 
在 使 用 高 级 语言 中 最 贴近 机 器 的 C。 而 C++、Java、C#， 虽 然 相 对 于 C 更 
抽象 高 阶 ， 但 由 于 这 些 语言 设计 的 初衷 仍 是 以 扩展 C 为 主 ， 所 以 不 过 是 
在 这 一 惯性 上 多 走 了 五 十 步 而 已 。 





本 书 正 是 扭转 这 种 矛盾 局 面 的 一 个 有 益 的 尝试 。《 像 计算 机 科学 家 
一 样 思 考 》 是 对 程序 设计 教学 模式 的 真 详 的 领悟 ， 而 使 用 Python 这 种 简 
洁 强 大 的 高 阶 语 言 ， 也 正 是 这 种 新 思路 最 贴切 的 贯彻 。 授 人 以 渔 ， 自 然 
应 当 用 最 好 的 渔具 ， 引 导 人 思考 ， 当 然 也 应 使 用 更 贴近 人 的 思路 而 不 是 
机 器 思路 的 语言 。Python 在 高 阶 语言 中 ， 是 一 个 从 理念 和 实际 综合 考量 
后 非常 合适 的 候选 。 





在 翻译 过 程 中 我 发 现 ， 本 书 不 但 思路 很 贴切 其 教学 主 上 中， 从 行文 和 
用 例 来 看 也 非常 浅显 易 改 。 全 书 讲 了 非常 多 的 程序 设计 理念 ， 在 读 过 之 
后 却 会 觉得 那些 理念 都 很 自然 ， 大 概 也 是 因为 作者 匠心 安排 ， 前 后 穿 
插 ， 让 读者 能 循序 渐进 地 明白 每 个 程序 设计 理念 是 因为 什么 而 出 现 的 原 
因 吧 。 这 种 风格 ， 再 配合 上 精心 编辑 的 示例 ， 用 于 介绍 任何 程序 设计 语 
言 ， 都 是 非常 合适 的 。 











如 果 将 来 我 的 孩子 愿意 学 习 程 序 设计 ， 我 愿意 用 这 本 书 教 他 。 


这 一 版 ， 将 语言 升级 到 Python 3， 从 而 更 加 贴近 语言 发 展 的 趋势 。 
作者 对 章节 内 容 和 示例 练习 也 做 出 了 重新 组 织 和 调整 ， 使 得 阐述 行文 更 
加 通畅 。 








尽管 我 已 尽 最 大 努力 争取 译文 准确 、 完 善 ， 但 仍然 难免 有 下 漏 之 
处 ， 如 发 现 问题 ， 欢 迎 批评 指正 。 电 子 邮 箱 zhaopuming@gmail.com 。 


赵普 明 ”毕业 于 清华 大 学 计算 机 系 ， 从 事 软 件 开 发 行业 近 10 年 。 
从 2.3 版 本 开始 接触 Python， 工 作 中 使 用 Python 编写 脚本 程序 ， 用 于 快速 
原型 构建 以 及 日 志 计 算 等 日 党 作业 ; 业余 时 ， 作 为 一 个 编程 语言 爱好 
者 ， 对 D、Kotlin、Lua、Clojure、Scala、Julia、Go 等 语言 均 有 了 解 ， 但 
至 今 仍 为 Python 独特 的 风格 、 简 洁 的 设计 而 恢 叹 。 


VEST A 


Allen Downey 是 欧 林 工程 学 院 (Olin College of Engineering) 的 计 
算 机 科学 教授 。 他 曾 在 韦 尔 斯 利 学 院 (Wellesley College) 、 科 和 尔 比 学 
院 〈Colby College〉 和 加 州 大 学 伯克利 分 校 (U.C. Berkeley) 任教 。 他 
从 加 州 大 学 伯克利 分 校 获 得 计算 机 科学 博士 学 位 ， 并 从 MIT 获 得 人 硕士 和 
a a 


封面 介绍 


Ast Te BRASS, THUR SORA ees CZ 
Conuropsis carolinensis) . XPRS 45 FS ARE, JF AE Ph 
Ess Ba at DEA A eS, Ese de — RE BISA ALA AX, (AE 
要 分 布 在 佛罗里达 州 到 卡罗来纳 州 一 带 。 





卡罗来纳 鹦 融 主 色 是 绿色 ， 头 部 黄色 ， 成 熟 时 前 额 和 两 闫 会 出 现 一 
些 栖 红色 的 条 纹 。 它 的 平均 尺寸 是 31 一 33 cm. EMU TERM EK, FF 
且 在 捕食 过 程 中 会 叭 唆 不 体 。 它 居住 在 沼 译 与 河畔 的 树 洞 中 。 卡 多 来 纳 
鹦 下 是 喜欢 群居 的 生物 ， 平 时 以 小 群体 形式 生活 ， 在 捕食 时 可 以 达到 几 
AR. 





不 幸 的 是 ， 这 些 捕 食 过 程 往往 在 农田 的 庄稼 地 里 进行 ， 农 夫 会 射击 
它们 ， 以 免 破 坏 庄稼。 它们 的 群体 特性 让 它们 会 集体 救助 受伤 的 鹦鹉 ， 
结果 让 农夫 可 以 一 次 杀 光 整 群 鹦 璐 。 不 但 如 此 ， 它 们 的 羽毛 被 用 做 妇女 
的 帽 饰 ， 也 有 一 些 山 瑾 被 作为 宠物 。 这 些 因素 组 合 起 来 ， 导 致 在 19 世 纪 
晚期 ， 卡 罗 来 纳 鹦 瑾 变 得 非常 黎 少 ， 并 且 禽 类 疾病 也 加 剧 了 它们 的 减 
少 。 到 20 世 纪 20 年 代 ， 这 个 物种 灭绝 了 。 


今天 ， 全 世界 的 博物 馆 中 保存 了 700 多 只 卡罗来纳 鹦鹉 的 标本 。 


很 多 O?Reily 的 书 封面 上 的 动物 都 是 濒危 物种 ， 它 们 全 都 对 世界 有 
重要 意义 。 请 访问 animals.oreilly.com 来 了 解 如 何 帮助 它们 的 信息 。 


封面 图 片 来 自 《 约 戎 进 的 自然 历史 》 (Johnson’s Natural History 


欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 社 旗 下 IT 专 业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 开 专 业 优 质 出 版 资源 和 编 
辑 策 划 团 队 ， 打 造 传统 出 版 与 电子 出 版 和 目 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平 合 ， 提 供 最 新 技术 资讯 ， 
为 作者 和 读者 打造 交流 互动 的 平台 。 
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RUSH, MIM MMI2017! 为 答谢 社区 用 户 


即日 起 到 am E Y A a ant +(— 44 
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Bs Fests is] 多 
免费 电子 书 
Free eBook 
我 要 写 书 
Write for Us 
Python 机 器 学 习 一 一 预 。 贝 叶 斯 方法 : AER 机 器 学 习 项 目 开 发 实战 DOH Sae : 统计 建 模 
测 分 析 核 心算 法 与 见 叶 斯 推断 的 Python 学 习 法 近期 活动 


人 区 


购买 图 书 


我 们 出 版 的 图 书 涵盖 主流 I 技术 ， 在 编程 语言 、Web 技 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实 现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 


下 载 资 源 








社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代 码 。 


另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 束 
可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社 区 ， 您 可 以 关注 他 们 ， 咨 询 技 术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 回 您 关注 的 作者 提出 采访 题 
Ho 





灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直 接 从 人 民 
邮电 出 版 社 书 库 发 货 ， 电 子 书 提 供 多 种 阅读 格式 。 


对 于 重 傍 新 书 ， 社 区 提供 预 售 和 新 书 首 发 服务 ， 用 尸 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 





用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ， 在 + Mm 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


| EE 





购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 
时 输入 “57AWG”， 然 后 点 击 “ 使 用 优惠 码 ” 即 可 享受 电子 书 8 折 优 惠 ( 本 优惠 券 只 可 使 用 一 
次 ) 。 



































纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 
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Wireshark 旦 当 阴 最 流行 的 网 络 包 分 析 工具 。 它 上 手 篇 单 ， 无需 培训 就 可 入 
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社区 里 还 可 以 做 什么 


提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘 误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 





写作 
社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 


身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 


如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 至 特 
色 服 务 。 


会 议 活动 早 知道 
您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 
AFA 


扫描 任意 二 维 码 都 能 找到 我 们 : 





异步 社区 

















QQ 群 ，436746675 


社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 


官方 微 博 : @ 人 邮 寞 步 社 区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


投稿 长 咨询 : contact@epubit.com.cn 


